Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.01790v1

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2507.01790v1 (cs)
[提交于 2025年7月2日 ]

标题: 视觉-语言模型如何处理跨模态的冲突信息?

标题: How Do Vision-Language Models Process Conflicting Information Across Modalities?

Authors:Tianze Hua, Tian Yun, Ellie Pavlick
摘要: 人工智能模型越来越需要具备多模态能力,将不同的输入流整合成一个连贯的状态表示,后续的行为和动作可以基于此进行。 本文旨在了解当输入流呈现冲突信息时,这类模型会如何表现。 特别关注视觉-语言模型,我们提供不一致的输入(例如,一张狗的图片配上标题“一张猫的照片”),并让模型报告特定模态中的信息(例如, “标题说了什么 / 图片里有什么?”)。 我们发现,模型通常会偏爱某一模态而非另一模态,例如,无论标题说什么,都报告图片内容,但不同模型在偏好的模态上有所不同。 我们发现行为上偏好的模态在模型的内部表示结构中有所体现,而且特定的注意力头可以重新构建表示,以偏爱某一模态而非另一模态。 此外,我们发现了与模态无关的“路由器头”,它们似乎促进对指令中请求的模态的回答,并且可以通过操纵或迁移来提高在不同数据集和模态上的性能。 总之,这项工作为识别和控制模型在复杂多模态环境中检测和解决冲突信号的方式提供了关键步骤。
摘要: AI models are increasingly required to be multimodal, integrating disparate input streams into a coherent state representation on which subsequent behaviors and actions can be based. This paper seeks to understand how such models behave when input streams present conflicting information. Focusing specifically on vision-language models, we provide inconsistent inputs (e.g., an image of a dog paired with the caption "A photo of a cat") and ask the model to report the information present in one of the specific modalities (e.g., "What does the caption say / What is in the image?"). We find that models often favor one modality over the other, e.g., reporting the image regardless of what the caption says, but that different models differ in which modality they favor. We find evidence that the behaviorally preferred modality is evident in the internal representational structure of the model, and that specific attention heads can restructure the representations to favor one modality over the other. Moreover, we find modality-agnostic "router heads" which appear to promote answers about the modality requested in the instruction, and which can be manipulated or transferred in order to improve performance across datasets and modalities. Together, the work provides essential steps towards identifying and controlling if and how models detect and resolve conflicting signals within complex multimodal environments.
评论: 所有代码和资源均可在以下地址获取: https://github.com/ethahtz/vlm_conflicting_info_processing
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI); 计算机视觉与模式识别 (cs.CV); 机器学习 (cs.LG)
引用方式: arXiv:2507.01790 [cs.CL]
  (或者 arXiv:2507.01790v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.01790
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Tianze Hua [查看电子邮件]
[v1] 星期三, 2025 年 7 月 2 日 15:15:14 UTC (6,642 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.AI
cs.CV
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号