计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月1日
]
标题: CAVALRY-V:视频多模态大语言模型对抗攻击的大型生成框架
标题: CAVALRY-V: A Large-Scale Generator Framework for Adversarial Attacks on Video MLLMs
摘要: 视频多模态大语言模型(V-MLLMs)在时间推理和跨模态理解方面表现出色,但由于独特的挑战:复杂的跨模态推理机制、时间依赖性和计算约束,它们对对抗攻击的脆弱性仍缺乏深入研究。我们提出了CAVALRY-V(跨模态语言-视觉对抗生成用于视频),一种新的框架,直接针对视频多模态大语言模型中视觉感知与语言生成之间的关键接口。我们的方法引入了两个关键创新:(1) 一个双目标语义-视觉损失函数,同时干扰模型的文本生成logits和视觉表示,以破坏跨模态整合,(2) 一个计算高效的两阶段生成器框架,结合大规模预训练以实现跨模型可迁移性,并通过专门微调以实现时空一致性。在全面的视频理解基准上的实证评估表明,CAVALRY-V显著优于现有的攻击方法,在商业系统(GPT-4.1,Gemini 2.0)和开源模型(QwenVL-2.5,InternVL-2.5,Llava-Video,Aria,MiniCPM-o-2.6)上,其平均提升达到22.8%。我们的框架通过隐式时间一致性建模而非显式正则化实现灵活性,即使在图像理解任务上也能显著提升性能(平均提升34.4%)。这种能力展示了CAVALRY-V作为跨多模态系统对抗研究基础方法的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.