计算机科学 > 人工智能
[提交于 2024年6月11日
(v1)
,最后修订 2025年2月7日 (此版本, v2)]
标题: 3D-属性:识别DPO中的挑战并规划前进路径
标题: 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward
摘要: 将大型语言模型(LLMs)与人类偏好对齐已引起广泛关注,其中近端策略优化(PPO)是一种标准但计算成本较高的方法,而直接偏好优化(DPO)则是一种更高效的替代方法。 虽然DPO具有简单性,但它在最先进的LLMs中仍未被充分利用,这表明可能存在潜在的局限性。 在本工作中,我们重新审视DPO,分析其理论基础和实验性能以填补这一差距。 我们确定了三个关键特性,称为3D特性,这些特性源自DPO的学习过程:拒绝响应可能性的急剧下降、退化为响应抑制以及对未见过的响应的分散效应。 我们表明,这些问题源于DPO的优化动态,其中选择和拒绝响应梯度之间的相互作用导致了不稳定性。 我们的发现得到了在受控玩具模型和实际LLM任务(包括数学问题解决和指令遵循)上的实验支持。 为了解决这些挑战,我们提出了简单的正则化技术,以提高训练稳定性和性能。 此外,我们研究了偏好数据分布如何影响DPO的有效性,提供了关于对齐模型如何处理域外(OOD)数据的见解。 我们的工作将这些观察结果与更广泛的研究联系起来,并为DPO的局限性提供了理论解释。 我们希望这些见解能指导未来无奖励模型偏好学习的发展,使其更接近基于奖励模型的方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.