统计学 > 方法论
[提交于 2025年10月5日
(v1)
,最后修订 2025年10月10日 (此版本, v2)]
标题: 迷你-N内部采样最佳:一种上下文质量奖励模型用于可靠且高效的最佳-N采样
标题: Best of mini-N in-loop Sampling: A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling
摘要: 现代偏好对齐技术,如最佳- N (BoN) 采样,依赖于通过成对比较数据训练的奖励模型。 虽然在学习相对偏好方面有效,但这种范式无法捕捉响应可接受性的信号,使系统容易选择许多不可接受选项中相对较坏的一个。 这对于困难提示尤其成问题,因为在这样的提示中,这种错误接受的风险会随着样本数量的增加而增加。 在本文中,我们通过引入一种新的数据收集和建模框架来解决这一关键可靠性差距。 通过借鉴离散选择模型,用一个外部选项扩充偏好数据,我们训练了一个奖励模型,不仅可以区分什么是更好的,还可以区分什么是足够好的。 我们利用这种能力创建了一种自适应推理策略,即最小- N 内循环最佳选择,该策略将生成预算划分为带有校准的早期退出条件的顺序循环。 我们的实验表明,当作为对齐护栏进行调整时,它将可靠性故障减少了70%,当作为推理加速器进行调整时,在IMDB情感设置中平均推理速度提高了超过22%。 因此,我们为从业者提供了一个有原则且灵活的框架,以显式管理可靠性与计算效率之间的权衡。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.