计算机科学 > 计算与语言
[提交于 2025年7月7日
]
标题: 预训练策略判别器是通用奖励模型
标题: Pre-Trained Policy Discriminators are General Reward Models
摘要: 我们通过将奖励建模表述为一个策略判别器,提供了一种新的视角,该判别器量化两个策略之间的差异以生成奖励信号,引导训练策略向具有期望行为的目标策略发展。 基于这一概念性见解,我们提出了一种可扩展的预训练方法,名为策略判别学习(POLAR),该方法训练一个奖励模型(RM)来辨别相同的策略并区分不同的策略。 与依赖绝对偏好的传统奖励建模方法不同,POLAR捕捉一个策略与任意目标策略之间的相对差异,这是一种可扩展的高层次优化目标,适用于建模通用排名关系。 利用POLAR预训练范式,我们提出了一系列参数规模从1.8B到7B的RMs。 实证结果表明,POLAR显著优于传统的非预训练方法,显著提升了RM性能。 例如,与最先进的基线相比,POLAR-7B在STEM任务中将偏好准确率从54.8%提高到81.0%,在创意写作任务中从57.9%提高到85.5%。 POLAR在使用强化微调(RFT)的RLHF中也表现出强大的泛化能力,提供了可靠的奖励信号,并显著提升了策略性能——在20个基准测试中,将LLaMa3.1-8B的平均值从47.36%提高到56.33%,将Qwen2.5-32B从64.49%提高到70.47%。 此外,扩展实验揭示了计算量与性能之间的清晰幂律关系,这由接近0.99的线性相关系数支持。 出色的性能、强大的泛化能力和扩展特性表明,POLAR是开发通用且强大奖励模型的一个有前景的方向。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.