计算机科学 > 密码学与安全
[提交于 2025年7月15日
]
标题: 跨越视觉语言模型在跨模态识别不安全概念中的差距
标题: Bridging the Gap in Vision Language Models in Identifying Unsafe Concepts Across Modalities
摘要: 视觉-语言模型(VLMs)由于其内部的道德标准和强大的推理能力,被越来越多地应用于识别不安全或不适当图像。 然而,尚不清楚它们在不同模态(如文本和图像)中是否能够识别各种不安全概念。 为了解决这个问题,我们首先整理了UnsafeConcepts数据集,包含75个不安全概念,即“万字符”、“性骚扰”和“袭击”,以及相关的1500张图像。 然后,我们对VLMs的感知(概念识别)和对齐(道德推理)能力进行了系统评估。 我们评估了八种流行的VLMs,并发现尽管大多数VLMs能准确感知不安全概念,但有时会将这些概念错误地分类为安全。 我们还发现开源VLMs在区分视觉和文本不安全概念方面存在一致的模态差距。 为了弥合这一差距,我们引入了一种简化的基于强化学习(RL)的方法,使用近端策略优化(PPO)来增强从图像中识别不安全概念的能力。 我们的方法直接基于VLM响应的奖励分数,无需收集人工标注的偏好数据来训练新的奖励模型。 实验结果表明,我们的方法在增强图像上的VLM对齐效果方面有效,同时保持了通用能力。 它优于监督微调(SFT)和直接偏好优化(DPO)等基线方法。 我们希望我们的数据集、评估结果和提出的对齐解决方案能为社区在推进安全VLMs方面的努力做出贡献。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.