Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.03106

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2506.03106 (cs)
[提交于 2025年6月3日 (v1) ,最后修订 2025年6月4日 (此版本, v2)]

标题: 批评性反馈-GRPO:通过自然语言和数值反馈提升LLM推理能力

标题: Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

Authors:Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
摘要: 数值反馈(如标量奖励)驱动的强化学习 (RL) 最近取得了显著进展,极大地增强了大型语言模型 (LLMs) 的复杂推理能力。 尽管取得了这些成功,我们发现仅使用数值反馈的 RL 面临三个关键挑战:性能瓶颈、自我反思效果有限以及持续失败。 我们进一步表明,即使在表现出性能瓶颈之后,通过利用以批评形式呈现的自然语言反馈,RL 微调模型仍可以对持续失败的问题生成正确的改进。 基于这一洞见,我们提出了 Critique-GRPO,这是一种在线 RL 框架,集成了自然语言和数值反馈以实现有效的策略优化。 Critique-GRPO 使 LLMs 能够同时从初始响应和基于批评的改进中学习,同时保持探索性。 使用 Qwen2.5-7B-Base 和 Qwen3-8B-Base 进行的广泛实验表明, Critique-GRPO 在八个具有挑战性的数学、STEM 和一般推理任务上始终优于基于监督学习和基于 RL 的微调方法,分别提高了约 4.5% 和 5% 的平均 pass@1 分数。 值得注意的是,Critique-GRPO 超过了一个强大的基线,在线 RL 中结合了专家演示。 进一步分析揭示了关于策略探索的两个关键见解:(1) 较高的熵并不总是保证从探索中有效学习;(2) 更长的响应不一定导致更有效的探索。
摘要: Recent advances in reinforcement learning (RL) with numerical feedback, such as scalar rewards, have significantly enhanced the complex reasoning capabilities of large language models (LLMs). Despite this success, we identify three key challenges encountered by RL with solely numerical feedback: performance plateaus, limited effectiveness of self-reflection, and persistent failures. We then demonstrate that RL-finetuned models, even after exhibiting performance plateaus, can generate correct refinements on persistently failed problems by leveraging natural language feedback in the form of critiques. Building on this insight, we propose Critique-GRPO, an online RL framework that integrates both natural language and numerical feedback for effective policy optimization. Critique-GRPO enables LLMs to learn from initial responses and critique-guided refinements simultaneously while maintaining exploration. Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that Critique-GRPO consistently outperforms supervised learning-based and RL-based fine-tuning approaches across eight challenging mathematical, STEM, and general reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%, respectively. Notably, Critique-GRPO surpasses a strong baseline that incorporates expert demonstrations within online RL. Further analysis reveals two critical insights about policy exploration: (1) higher entropy does not always guarantee efficient learning from exploration, and (2) longer responses do not necessarily lead to more effective exploration.
评论: 38页
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI)
引用方式: arXiv:2506.03106 [cs.CL]
  (或者 arXiv:2506.03106v2 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.03106
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Xiaoying Zhang [查看电子邮件]
[v1] 星期二, 2025 年 6 月 3 日 17:39:02 UTC (4,081 KB)
[v2] 星期三, 2025 年 6 月 4 日 13:45:47 UTC (4,396 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs.AI
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号