计算机科学 > 人工智能
[提交于 2025年8月31日
]
标题: OmniDPO:一种解决全模态幻觉的偏好优化框架
标题: OmniDPO: A Preference Optimization Framework to Address Omni-Modal Hallucination
摘要: 最近,全模态大型语言模型(OLLMs)引发了新一轮的研究热潮,在音频视频理解以及实时环境感知等任务中取得了令人印象深刻的结果。 然而,幻觉问题仍然存在。 与双模态设置类似,文本模态的先验知识往往占主导地位,导致OLLMs更依赖文本线索而忽视视觉和音频信息。 此外,完全多模态场景引入了新的挑战。 大多数现有模型在训练期间独立对齐视觉或听觉模态与文本,而忽略了视频与其对应音频之间的内在关联。 这种疏忽导致在需要解释嵌入在视频内容中的隐藏音频线索时出现幻觉。 为了解决这些挑战,我们提出了 OmniDPO,一种用于减轻OLLMs中幻觉的偏好对齐框架。 具体而言,OmniDPO结合了两种策略:(1) 构建文本偏好样本对,以增强模型对音视频交互的理解;以及(2) 构建多模态偏好样本对,以加强模型对视觉和听觉信息的关注。 通过解决这两个挑战,OmniDPO有效提高了多模态基础,并减少了幻觉。 在两个OLLMs上进行的实验表明,OmniDPO不仅能够有效缓解多模态幻觉,还能显著提升模型在不同模态上的推理能力。 所有代码和数据集将在论文接受后发布。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.