计算机科学 > 人工智能
[提交于 2025年6月1日
]
标题: 不要弃权! 识别并解决不确定性
标题: Do not Abstain! Identify and Solve the Uncertainty
摘要: 尽管大型语言模型(LLMs)已在各个领域得到广泛应用,但它们在面对不确定场景时常常表现出过度自信,而现有的解决方案主要依赖于回避性回答(例如,“我不知道”),这忽略了识别和解决不确定性以生成更令人满意的回答的机会。为了系统地研究和提升LLMs识别和解决不确定性来源的能力,我们引入了\textbf{ConfuseBench},这是一个主要关注三种不确定性类型的基准:文档稀缺性、能力限制和查询模糊性。通过ConfuseBench的实验表明,当前的LLMs难以准确识别不确定性根源并加以解决。它们倾向于将不确定性归因于查询模糊性,而忽视了能力限制,尤其是对于较弱的模型来说更是如此。为了解决这一挑战,我们首先生成了上下文感知的查询,以突出原始查询中的困惑之处。然后根据查询答案的独特性判断不确定性来源。进一步使用了一种基于策略的训练方法InteractDPO来生成更好的查询。实验结果证明了我们的方法的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.