Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.05056

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2507.05056 (cs)
[提交于 2025年7月7日 ]

标题: INTER:通过交互引导采样减轻大型视觉语言模型中的幻觉

标题: INTER: Mitigating Hallucination in Large Vision-Language Models by Interaction Guidance Sampling

Authors:Xin Dong, Shichao Dong, Jin Wang, Jing Huang, Li Zhou, Zenghui Sun, Lihua Jing, Jingsong Lan, Xiaoyong Zhu, Bo Zheng
摘要: 大型视觉语言模型(LVLMs)中的幻觉对实际应用构成了重大挑战,因为LVLMs可能会生成看似合理但与相关视觉内容不一致的响应。 这一问题在人类认知中很少出现。 我们认为这种差异源于人类能够有效利用数据样本中的多模态交互信息。 具体来说,人类通常首先收集多模态信息,分析不同模态之间的交互以理解内容,然后通过语言表达其理解。 受这一观察启发,我们在流行的LVLMs上进行了广泛的实验,并获得了令人惊讶的见解,揭示了LVLMs在多模态样本上的类人但较不明显的认知行为。 基于这些发现,我们进一步提出了\textbf{互动}:\textbf{交互}动作引导采样,一种新颖的无需训练的算法,能够在不需额外数据的情况下减轻幻觉。 具体而言,INTER明确指导LVLMs在生成响应时有效地重新应用其对多模态交互信息的理解,从而减少潜在的幻觉。 在包括VQA和图像描述任务在内的六个基准测试中,与最先进的解码策略相比,INTER在五种LVLMs上的平均改进高达3.4%。 论文被接受后将发布代码。
摘要: Hallucinations in large vision-language models (LVLMs) pose significant challenges for real-world applications, as LVLMs may generate responses that appear plausible yet remain inconsistent with the associated visual content. This issue rarely occurs in human cognition. We argue that this discrepancy arises from humans' ability to effectively leverage multimodal interaction information in data samples. Specifically, humans typically first gather multimodal information, analyze the interactions across modalities for understanding, and then express their understanding through language. Motivated by this observation, we conduct extensive experiments on popular LVLMs and obtained insights that surprisingly reveal human-like, though less pronounced, cognitive behavior of LVLMs on multimodal samples. Building on these findings, we further propose \textbf{INTER}: \textbf{Inter}action Guidance Sampling, a novel training-free algorithm that mitigate hallucinations without requiring additional data. Specifically, INTER explicitly guides LVLMs to effectively reapply their understanding of multimodal interaction information when generating responses, thereby reducing potential hallucinations. On six benchmarks including VQA and image captioning tasks, INTER achieves an average improvement of up to 3.4\% on five LVLMs compared to the state-of-the-art decoding strategy. The code will be released when the paper is accepted.
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI)
引用方式: arXiv:2507.05056 [cs.CV]
  (或者 arXiv:2507.05056v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.05056
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Xin Dong [查看电子邮件]
[v1] 星期一, 2025 年 7 月 7 日 14:38:53 UTC (4,879 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.AI

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号