计算机科学 > 机器学习
[提交于 2025年7月22日
]
标题: 超越二元奖励:训练语言模型对其不确定性进行推理
标题: Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty
摘要: 当语言模型(LMs)通过强化学习(RL)进行训练以生成自然语言的“推理链”时,它们在各种困难的问题回答任务上的表现会得到提升。 如今,几乎所有成功的用于推理的强化学习应用都使用二元奖励函数来评估LM输出的正确性。 由于这样的奖励函数不会惩罚猜测或低置信度的输出,它们往往会产生意想不到的副作用,导致校准度下降,并增加LM在其他问题领域生成错误响应(或“幻觉”)的比率。 本文描述了RLCR(带有校准奖励的强化学习),这是一种训练推理模型的方法,能够同时提高准确性和校准的置信度估计。 在RLCR中,LM在推理后生成预测和数值置信度估计。 它们被训练以优化一个奖励函数,该函数将二元正确性分数与Brier分数相结合——这是一种针对置信度估计的评分规则,它激励校准的预测。 我们首先证明,这个奖励函数(或任何使用有界、适当评分规则的类似奖励函数)会产生既准确又校准良好的模型。 接下来,我们展示了在各种数据集上,RLCR在域内和域外评估中显著提高了校准度,而不会损失准确性——优于普通的RL训练和训练为事后分配置信度分数的分类器。 虽然普通RL会损害校准度,但RLCR会提高校准度。 最后,我们证明可以在测试时利用表述的置信度,通过置信度加权缩放方法来提高准确性和校准度。 我们的结果表明,明确优化校准可以产生更普遍可靠的推理模型。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.