计算机科学 > 计算与语言
[提交于 2025年1月2日
(v1)
,最后修订 2025年4月5日 (此版本, v3)]
标题: 利用语义图进行幻觉检测的不确定性建模增强
标题: Enhancing Uncertainty Modeling with Semantic Graph for Hallucination Detection
摘要: 大型语言模型(LLMs)容易产生非事实性或不忠实的陈述,这会削弱其在现实场景中的应用。 最近的研究集中在基于不确定性的幻觉检测,这种方法利用LLMs的输出概率进行不确定度计算,并不依赖外部知识或频繁地从LLMs中采样。 然而,大多数方法仅考虑每个独立标记的不确定性,而标记和句子之间的复杂语义关系尚未得到充分研究,这限制了对跨越多个标记和句子的幻觉的检测。 在本文中,我们提出了一种方法,通过语义图来增强不确定度建模以进行幻觉检测。 具体来说,我们首先构建一个能够很好地捕捉实体标记和句子之间关系的语义图。 然后,我们将两个实体之间的关系引入不确定度传播,以增强句子级别的幻觉检测。 鉴于幻觉是由于句子之间的冲突引起的,我们进一步提出了一种基于图的不确定度校准方法,该方法将句子与其在语义图中的邻居之间的矛盾概率结合起来进行不确定度计算。 在两个数据集上的大量实验表明了我们所提出方法的巨大优势。 特别是,在段落级别的幻觉检测中,我们获得了19.78%的显著提升。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.