计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
(v1)
,最后修订 2025年6月18日 (此版本, v4)]
标题: 激励推理以实现大型语言模型的高级指令跟随
标题: Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models
摘要: 现有大型语言模型(LLMs)在遵循复杂指令时面临挑战,尤其是在存在多个约束条件且这些约束以平行、链式和分支结构组织时。 一种直观的解决方案即思维链(CoT),有望普遍提升LLMs的能力。 然而,我们发现,原始的CoT由于其简单的指令改写推理模式,对性能产生了负面影响。 它无法揭示约束的组成以识别跨类型和维度层次的关系。 为此,我们提出了一种系统性方法,通过激励测试时计算扩展的推理来增强LLMs处理复杂指令的能力。 首先,我们基于现有分类法分解复杂指令,并提出可重复的数据获取方法。 其次,我们利用基于可验证规则奖励信号的强化学习(RL)来专门培养指令跟随的推理能力。 我们通过样本对比解决复杂指令下浅层、非本质的推理问题,以实现更优的CoT执行。 我们还利用专家的行为克隆来促进快速思考的LLMs向熟练推理者分布偏移。 在七个全面基准上的广泛评估证实了所提方法的有效性,在1.5B LLM上实现了与8B LLM相当的性能提升11.74%。 代码和数据将在之后提供(正在评审中)。 关键词:基于可验证奖励的强化学习(RLVR)、指令跟随、复杂指令
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.