计算机科学 > 计算与语言
[提交于 2025年6月3日
]
标题: 答案收敛作为推理中早停的信号
标题: Answer Convergence as a Signal for Early Stopping in Reasoning
摘要: 思维链(CoT)提示增强了大型语言模型(LLMs)的推理能力,但常常导致冗长和冗余的输出,从而增加了推理成本。 我们假设许多推理步骤对于产生正确答案来说是不必要的。 为了验证这一点,我们首先进行了一项系统研究,以检查模型达到稳定决策所需的最少推理量。 我们发现,在数学推理任务中,模型通常在60%的推理步骤后收敛到最终答案,这表明剩余内容存在大量冗余。 基于这些见解,我们提出了三种推理时策略来提高效率:(1)通过答案一致性实现早期停止,(2)增强生成推理结束信号的概率,以及(3)一种基于内部激活的学习何时停止的监督方法。 在五个基准数据集和五种开源权重的LLMs上的实验表明,我们的方法显著减少了令牌使用量,同时几乎没有或没有精度损失。 特别是,在NaturalQuestions上, 答案一致性减少了超过40%的令牌,同时进一步提高了准确性。 我们的工作强调了在推理时运行的成本效益推理方法的重要性,为实际应用提供了实用价值。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.