计算机科学 > 计算与语言
[提交于 2024年7月21日
(v1)
,最后修订 2025年4月10日 (此版本, v2)]
标题: 一种对与*PO的人类对齐的实际分析
标题: A Practical Analysis of Human Alignment with *PO
摘要: 在最先进的人员对齐方法中,偏好优化方法(*PO)处于前沿。 先前的研究通常集中在确定表现最好的方法,通常涉及超参数的网格搜索,这对普通从业者来说可能不切实际。 在本文中,我们研究了现有最先进的方法在现实的分布外(OOD)场景中对不同超参数的鲁棒性,该场景反映了人员对齐的实际应用。 我们的目标是通过各种指标(如KL散度和响应长度)的经验方法,找到能通过不同指标增加获得更好结果可能性的方法。 我们还引入了LN-DPO,这是DPO的一个简单长度归一化版本,在超参数上更稳定,有效减少了平均响应长度,并提高了性能。 我们对最先进的无参考(即SimPO)和有参考(即DPO和LN-DPO)方法的分析表明,它们在其最佳状态(即最佳可能情况)下表现相似。 然而,我们发现当偏离最佳可能情况时,性能的变化模式有很大差异。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.