计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月30日
]
标题: 激活引导结合偏好优化:对抗视觉语言模型中越狱攻击的防御方法
标题: Activation Steering Meets Preference Optimization: Defense Against Jailbreaks in Vision Language Models
摘要: 视觉语言模型(VLMs)在整合视觉和文本信息以进行理解和推理方面表现出色,但对对抗攻击仍然高度脆弱。 虽然激活引导已成为一种有前景的防御方法,但现有方法通常依赖于任务特定的对比提示来提取有害方向,这表现出次优性能,并可能损害视觉定位性能。 为解决这些限制,我们提出了\textit{序列级偏好优化}用于 VLM (\textit{SPO-VLM}),一种结合激活级干预与策略级优化的新型两阶段防御框架,以增强模型鲁棒性。 在\textit{第一阶段}中,我们从多种数据源计算自适应层特定的引导向量,实现在推理过程中对有害行为的通用抑制。 在\textit{第二阶段}中,我们通过序列级偏好优化过程细化这些引导向量。 此阶段结合了自动毒性评估,以及基于描述-图像对齐的视觉一致性奖励,以实现安全且语义上有根据的文本生成。 SPO-VLM 的两阶段结构通过将第一阶段的轻量级缓解基础与第二阶段的深度策略优化相结合,平衡了效率和有效性。 大量实验表明,SPO-VLM 通过激活引导和偏好优化增强了安全性,同时在良性任务上保持了强大的性能,而不会损害视觉理解能力。 我们将发布代码、模型权重和评估工具包,以支持可重复性和未来研究。 \textcolor{red}{警告:本文可能包含具有冒犯性或有害的文字和图像。}
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.