计算机科学 > 人工智能
[提交于 2024年6月8日
]
标题: 在线DPO:具有快速-慢速追逐的在线直接偏好优化
标题: Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing
摘要: 直接偏好优化(DPO)通过直接在人类偏好数据集上进行训练,提高了大型语言模型(LLMs)与人类价值观的一致性,消除了对奖励模型的需求。 然而,由于存在跨领域的用户偏好,直接的持续训练可能导致灾难性遗忘,限制了DPO的性能和效率。 受种内竞争推动物种进化启发,我们提出了一种在线快速-慢速追逐DPO(OFS-DPO)用于偏好对齐,通过模型之间的快速和慢速追逐模拟竞争,以促进快速适应。 具体来说,我们首先推导了在线学习的遗憾上界,并通过最小最大优化模式验证了我们的动机。 基于此,我们引入了两个使用低秩自适应(LoRA)且优化速度不同的相同模块,以模拟种内竞争,并提出了一种新的正则化项来指导它们的学习。 为了进一步缓解跨领域场景中的灾难性遗忘,我们将OFS-DPO扩展为LoRA模块组合策略,从而得到跨领域在线快速-慢速追逐DPO(COFS-DPO)。 该方法利用来自不同任务领域的快速模块参数的线性组合,充分利用历史信息以实现持续的价值对齐。 实验结果表明,OFS-DPO在领域内对齐方面优于DPO,而COFS-DPO在跨领域持续学习场景中表现出色。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.