计算机科学 > 计算机视觉与模式识别
[提交于 2025年5月30日
]
标题: BIMA:双向最大似然学习方法在大型视觉-语言模型中的幻觉预测与缓解研究
标题: BIMA: Bijective Maximum Likelihood Learning Approach to Hallucination Prediction and Mitigation in Large Vision-Language Models
摘要: 大型视觉-语言模型已在各个领域得到广泛应用。然而,开发一个可信的系统,并具有大规模模型的最小可解释特性,这构成了重大挑战。这些系统导致的谬误函数最常见的术语之一是幻觉,即语言模型生成的响应与视觉内容不对应。为了缓解这个问题,已经开发了几种方法,其中一个突出的方向是改进解码过程。本文提出了一种新的双射最大似然学习(BIMA)方法,利用归一化流理论来减轻幻觉问题。所提出的BIMA方法可以高效地减轻现有视觉-语言模型中的幻觉问题,带来显著的改进。值得注意的是,BIMA在POPE基准上的平均F1得分为85.06%,并且分别显著减少了CHAIRS和CHAIRI 7.6%和2.6%。据我们所知,这是最早考虑双射方法以减少由大型视觉-语言模型引起的幻觉的研究之一。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.