计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月7日
]
标题: INTER:通过交互引导采样减轻大型视觉语言模型中的幻觉
标题: INTER: Mitigating Hallucination in Large Vision-Language Models by Interaction Guidance Sampling
摘要: 大型视觉语言模型(LVLMs)中的幻觉对实际应用构成了重大挑战,因为LVLMs可能会生成看似合理但与相关视觉内容不一致的响应。 这一问题在人类认知中很少出现。 我们认为这种差异源于人类能够有效利用数据样本中的多模态交互信息。 具体来说,人类通常首先收集多模态信息,分析不同模态之间的交互以理解内容,然后通过语言表达其理解。 受这一观察启发,我们在流行的LVLMs上进行了广泛的实验,并获得了令人惊讶的见解,揭示了LVLMs在多模态样本上的类人但较不明显的认知行为。 基于这些发现,我们进一步提出了\textbf{互动}:\textbf{交互}动作引导采样,一种新颖的无需训练的算法,能够在不需额外数据的情况下减轻幻觉。 具体而言,INTER明确指导LVLMs在生成响应时有效地重新应用其对多模态交互信息的理解,从而减少潜在的幻觉。 在包括VQA和图像描述任务在内的六个基准测试中,与最先进的解码策略相比,INTER在五种LVLMs上的平均改进高达3.4%。 论文被接受后将发布代码。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.