计算机科学 > 计算与语言
[提交于 2025年7月2日
]
标题: 视觉-语言模型如何处理跨模态的冲突信息?
标题: How Do Vision-Language Models Process Conflicting Information Across Modalities?
摘要: 人工智能模型越来越需要具备多模态能力,将不同的输入流整合成一个连贯的状态表示,后续的行为和动作可以基于此进行。 本文旨在了解当输入流呈现冲突信息时,这类模型会如何表现。 特别关注视觉-语言模型,我们提供不一致的输入(例如,一张狗的图片配上标题“一张猫的照片”),并让模型报告特定模态中的信息(例如, “标题说了什么 / 图片里有什么?”)。 我们发现,模型通常会偏爱某一模态而非另一模态,例如,无论标题说什么,都报告图片内容,但不同模型在偏好的模态上有所不同。 我们发现行为上偏好的模态在模型的内部表示结构中有所体现,而且特定的注意力头可以重新构建表示,以偏爱某一模态而非另一模态。 此外,我们发现了与模态无关的“路由器头”,它们似乎促进对指令中请求的模态的回答,并且可以通过操纵或迁移来提高在不同数据集和模态上的性能。 总之,这项工作为识别和控制模型在复杂多模态环境中检测和解决冲突信号的方式提供了关键步骤。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.