计算机科学 > 计算与语言
[提交于 2025年6月3日
(v1)
,最后修订 2025年6月4日 (此版本, v2)]
标题: 批评性反馈-GRPO:通过自然语言和数值反馈提升LLM推理能力
标题: Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback
摘要: 数值反馈(如标量奖励)驱动的强化学习 (RL) 最近取得了显著进展,极大地增强了大型语言模型 (LLMs) 的复杂推理能力。 尽管取得了这些成功,我们发现仅使用数值反馈的 RL 面临三个关键挑战:性能瓶颈、自我反思效果有限以及持续失败。 我们进一步表明,即使在表现出性能瓶颈之后,通过利用以批评形式呈现的自然语言反馈,RL 微调模型仍可以对持续失败的问题生成正确的改进。 基于这一洞见,我们提出了 Critique-GRPO,这是一种在线 RL 框架,集成了自然语言和数值反馈以实现有效的策略优化。 Critique-GRPO 使 LLMs 能够同时从初始响应和基于批评的改进中学习,同时保持探索性。 使用 Qwen2.5-7B-Base 和 Qwen3-8B-Base 进行的广泛实验表明, Critique-GRPO 在八个具有挑战性的数学、STEM 和一般推理任务上始终优于基于监督学习和基于 RL 的微调方法,分别提高了约 4.5% 和 5% 的平均 pass@1 分数。 值得注意的是,Critique-GRPO 超过了一个强大的基线,在线 RL 中结合了专家演示。 进一步分析揭示了关于策略探索的两个关键见解:(1) 较高的熵并不总是保证从探索中有效学习;(2) 更长的响应不一定导致更有效的探索。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.