计算机科学 > 信息论
[提交于 2025年5月6日
]
标题: 软最佳-n采样用于模型对齐
标题: Soft Best-of-n Sampling for Model Alignment
摘要: Best-of-$n$ (BoN) 抽样是一种实用的方法,用于使语言模型的输出与人类偏好对齐,而无需昂贵的微调。 BoN 抽样通过为一个提示生成$n$个响应,然后选择最大化奖励函数的样本来执行。 根据采样分布和原始分布之间的 KL 散度测量,BoN 在实践中以失真成本为代价获得高奖励值。 这种失真通过改变样本数量大致得到控制:更大的$n$会在更高的失真成本下产生更高的奖励。 我们引入了 Soft Best-of-$n$ 抽样,这是 BoN 的一种泛化,它允许通过温度参数$\lambda$在原始分布和奖励最大化的分布之间平滑插值。 我们建立了理论保证,表明 Soft Best-of-$n$ 抽样以$O(1/n)$ 的速率在 KL 散度和期望(相对)奖励方面急剧收敛到最优倾斜分布。 对于离散输出序列,我们分析了一个加性奖励模型,揭示了分块抽样的基本局限性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.