计算机科学 > 密码学与安全
[提交于 2025年10月20日
]
标题: VERA-V:用于破解视觉-语言模型的变分推理框架
标题: VERA-V: Variational Inference Framework for Jailbreaking Vision-Language Models
摘要: 视觉-语言模型(VLMs)通过视觉推理扩展了大型语言模型,但其多模态设计也引入了新的、未充分探索的漏洞。 现有的多模态红队方法大多依赖于脆弱的模板,专注于单一攻击设置,并仅暴露了一小部分漏洞。 为解决这些限制,我们引入了VERA-V,这是一种变分推理框架,将多模态越狱发现重新表述为学习配对文本-图像提示的联合后验分布。 这种概率观点使得能够生成隐蔽的、耦合的对抗性输入,以绕过模型的防护机制。 我们训练了一个轻量级攻击者来近似后验分布,从而能够高效地采样多样化的越狱,并提供关于漏洞的分布见解。 VERA-V进一步集成了三种互补策略:(i) 基于排版的文本提示,嵌入有害线索,(ii) 基于扩散的图像生成,引入对抗信号,(iii) 结构化干扰项以分散VLM注意力。 在HarmBench和HADES基准测试中的实验表明,VERA-V在开源和前沿VLM上始终优于最先进的基线方法,在GPT-4o上的攻击成功率(ASR)比最佳基线高出高达53.75%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.