Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2406.05534

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2406.05534 (cs)
[提交于 2024年6月8日 ]

标题: 在线DPO:具有快速-慢速追逐的在线直接偏好优化

标题: Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing

Authors:Biqing Qi, Pengfei Li, Fangyuan Li, Junqi Gao, Kaiyan Zhang, Bowen Zhou
摘要: 直接偏好优化(DPO)通过直接在人类偏好数据集上进行训练,提高了大型语言模型(LLMs)与人类价值观的一致性,消除了对奖励模型的需求。 然而,由于存在跨领域的用户偏好,直接的持续训练可能导致灾难性遗忘,限制了DPO的性能和效率。 受种内竞争推动物种进化启发,我们提出了一种在线快速-慢速追逐DPO(OFS-DPO)用于偏好对齐,通过模型之间的快速和慢速追逐模拟竞争,以促进快速适应。 具体来说,我们首先推导了在线学习的遗憾上界,并通过最小最大优化模式验证了我们的动机。 基于此,我们引入了两个使用低秩自适应(LoRA)且优化速度不同的相同模块,以模拟种内竞争,并提出了一种新的正则化项来指导它们的学习。 为了进一步缓解跨领域场景中的灾难性遗忘,我们将OFS-DPO扩展为LoRA模块组合策略,从而得到跨领域在线快速-慢速追逐DPO(COFS-DPO)。 该方法利用来自不同任务领域的快速模块参数的线性组合,充分利用历史信息以实现持续的价值对齐。 实验结果表明,OFS-DPO在领域内对齐方面优于DPO,而COFS-DPO在跨领域持续学习场景中表现出色。
摘要: Direct Preference Optimization (DPO) improves the alignment of large language models (LLMs) with human values by training directly on human preference datasets, eliminating the need for reward models. However, due to the presence of cross-domain human preferences, direct continual training can lead to catastrophic forgetting, limiting DPO's performance and efficiency. Inspired by intraspecific competition driving species evolution, we propose a Online Fast-Slow chasing DPO (OFS-DPO) for preference alignment, simulating competition through fast and slow chasing among models to facilitate rapid adaptation. Specifically, we first derive the regret upper bound for online learning, validating our motivation with a min-max optimization pattern. Based on this, we introduce two identical modules using Low-rank Adaptive (LoRA) with different optimization speeds to simulate intraspecific competition, and propose a new regularization term to guide their learning. To further mitigate catastrophic forgetting in cross-domain scenarios, we extend the OFS-DPO with LoRA modules combination strategy, resulting in the Cross domain Online Fast-Slow chasing DPO (COFS-DPO). This method leverages linear combinations of fast modules parameters from different task domains, fully utilizing historical information to achive continual value alignment. Experimental results show that OFS-DPO outperforms DPO in in-domain alignment, while COFS-DPO excels in cross-domain continual learning scenarios.
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL); 机器学习 (cs.LG)
引用方式: arXiv:2406.05534 [cs.AI]
  (或者 arXiv:2406.05534v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2406.05534
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Biqing Qi [查看电子邮件]
[v1] 星期六, 2024 年 6 月 8 日 17:30:54 UTC (1,395 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-06
切换浏览方式为:
cs
cs.CL
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号