Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.00817v1

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2507.00817v1 (cs)
[提交于 2025年7月1日 ]

标题: CAVALRY-V:视频多模态大语言模型对抗攻击的大型生成框架

标题: CAVALRY-V: A Large-Scale Generator Framework for Adversarial Attacks on Video MLLMs

Authors:Jiaming Zhang, Rui Hu, Qing Guo, Wei Yang Bryan Lim
摘要: 视频多模态大语言模型(V-MLLMs)在时间推理和跨模态理解方面表现出色,但由于独特的挑战:复杂的跨模态推理机制、时间依赖性和计算约束,它们对对抗攻击的脆弱性仍缺乏深入研究。我们提出了CAVALRY-V(跨模态语言-视觉对抗生成用于视频),一种新的框架,直接针对视频多模态大语言模型中视觉感知与语言生成之间的关键接口。我们的方法引入了两个关键创新:(1) 一个双目标语义-视觉损失函数,同时干扰模型的文本生成logits和视觉表示,以破坏跨模态整合,(2) 一个计算高效的两阶段生成器框架,结合大规模预训练以实现跨模型可迁移性,并通过专门微调以实现时空一致性。在全面的视频理解基准上的实证评估表明,CAVALRY-V显著优于现有的攻击方法,在商业系统(GPT-4.1,Gemini 2.0)和开源模型(QwenVL-2.5,InternVL-2.5,Llava-Video,Aria,MiniCPM-o-2.6)上,其平均提升达到22.8%。我们的框架通过隐式时间一致性建模而非显式正则化实现灵活性,即使在图像理解任务上也能显著提升性能(平均提升34.4%)。这种能力展示了CAVALRY-V作为跨多模态系统对抗研究基础方法的潜力。
摘要: Video Multimodal Large Language Models (V-MLLMs) have shown impressive capabilities in temporal reasoning and cross-modal understanding, yet their vulnerability to adversarial attacks remains underexplored due to unique challenges: complex cross-modal reasoning mechanisms, temporal dependencies, and computational constraints. We present CAVALRY-V (Cross-modal Language-Vision Adversarial Yielding for Videos), a novel framework that directly targets the critical interface between visual perception and language generation in V-MLLMs. Our approach introduces two key innovations: (1) a dual-objective semantic-visual loss function that simultaneously disrupts the model's text generation logits and visual representations to undermine cross-modal integration, and (2) a computationally efficient two-stage generator framework that combines large-scale pre-training for cross-model transferability with specialized fine-tuning for spatiotemporal coherence. Empirical evaluation on comprehensive video understanding benchmarks demonstrates that CAVALRY-V significantly outperforms existing attack methods, achieving 22.8% average improvement over the best baseline attacks on both commercial systems (GPT-4.1, Gemini 2.0) and open-source models (QwenVL-2.5, InternVL-2.5, Llava-Video, Aria, MiniCPM-o-2.6). Our framework achieves flexibility through implicit temporal coherence modeling rather than explicit regularization, enabling significant performance improvements even on image understanding (34.4% average gain). This capability demonstrates CAVALRY-V's potential as a foundational approach for adversarial research across multimodal systems.
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI)
引用方式: arXiv:2507.00817 [cs.CV]
  (或者 arXiv:2507.00817v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.00817
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Jiaming Zhang [查看电子邮件]
[v1] 星期二, 2025 年 7 月 1 日 14:48:27 UTC (500 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.AI

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号