统计学 > 机器学习
[提交于 2025年10月7日
]
标题: 面向领域偏移的大型语言模型共形预测
标题: Domain-Shift-Aware Conformal Prediction for Large Language Models
摘要: 大型语言模型在各种任务中取得了令人印象深刻的性能。 然而,它们产生过于自信且事实错误的输出的倾向,即所谓的幻觉,在现实世界的应用中带来了风险。 置信预测提供了有限样本、分布无关的覆盖保证,但在领域转移下标准的置信预测会失效,通常导致覆盖不足和不可靠的预测集。 我们提出了一种新的框架,称为领域转移感知置信预测(DS-CP)。 我们的框架通过系统地重新加权校准样本,根据它们与测试提示的接近程度,使置信预测适应于领域转移下的大型语言模型,从而在保持有效性的同时增强适应性。 我们的理论分析和在MMLU基准上的实验表明,所提出的方法在大量分布转移下比标准置信预测提供了更可靠的覆盖,同时保持了效率。 这为在实际部署中实现大型语言模型的可信不确定性量化提供了一个实用的步骤。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.