计算机科学 > 计算机视觉与模式识别
[提交于 2025年2月2日
]
标题: MINT:通过标记减少来减轻大型视觉-语言模型中的幻觉
标题: MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction
摘要: 幻觉一直是大型视觉语言模型(LVLMs)在需要高可靠性的领域应用中长期存在且不可避免的问题。 各种方法依赖于数据标注或训练策略进行改进,但较少关注LLM本身的固有问题。 为了填补这一空白,我们深入研究了LVLM解码过程中的注意力机制。 有趣的是,我们的研究揭示了LVLM层次结构中存在的普遍注意力冗余,表现为深层中过度扩展的图像处理和大量非必要的图像标记。 基于这一观察,我们提出了MINT,一种新颖的无训练解码策略,通过令牌减少来减轻幻觉。 具体来说,我们通过屏蔽LVLM对无关图像标记的注意力,动态增强其局部感知能力。 此外,我们使用对比解码,促使模型更加关注那些关键的图像区域。 我们的完整方法旨在引导模型在生成过程中更加关注关键视觉元素。 在多个流行的公共基准上的广泛实验结果表明,与原始模型相比,我们的方法在减轻由分心感知引起的幻觉方面提高了4%。 同时,尽管我们减少了一套图像标记,我们的方法被证明使模型能够感知到5%更多的视觉点。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.