Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2402.00348v1

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2402.00348v1 (cs)
[提交于 2024年2月1日 ]

标题: ODICE:通过正交梯度更新揭示分布校正估计的奥秘

标题: ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update

Authors:Liyuan Mao, Haoran Xu, Weinan Zhang, Xianyuan Zhan
摘要: 在本研究中,我们调查了分布校正估计(DICE)方法,这是离线强化学习(RL)和模仿学习(IL)中的一个重要研究方向。 基于DICE的方法施加状态-动作级别的行为约束,这是离线学习的理想选择。 然而,它们通常比仅使用动作级别行为约束的当前最先进(SOTA)方法表现差得多。 在重新审视基于DICE的方法后,我们发现当使用真实梯度更新学习价值函数时,存在两个梯度项:前向梯度(在当前状态上取)和后向梯度(在下一个状态上取)。 使用前向梯度与许多离线RL方法有很大相似性,因此可以视为应用动作级别约束。 然而,如果这两个梯度方向冲突,直接添加后向梯度可能会导致效果退化或抵消其影响。 为了解决这个问题,我们提出了一种简单而有效的修改,将后向梯度投影到前向梯度的法平面,从而得到一个正交梯度更新,这是基于DICE方法的新学习规则。 我们进行了详尽的理论分析,发现投影后的后向梯度带来了状态级别的行为正则化,这揭示了基于DICE方法的奥秘:价值学习目标确实试图施加状态-动作级别的约束,但需要以修正的方式使用。 通过简单的例子和在复杂离线RL和IL任务上的广泛实验,我们证明了使用正交梯度更新的基于DICE方法(O-DICE)达到了SOTA性能和出色的鲁棒性。
摘要: In this study, we investigate the DIstribution Correction Estimation (DICE) methods, an important line of work in offline reinforcement learning (RL) and imitation learning (IL). DICE-based methods impose state-action-level behavior constraint, which is an ideal choice for offline learning. However, they typically perform much worse than current state-of-the-art (SOTA) methods that solely use action-level behavior constraint. After revisiting DICE-based methods, we find there exist two gradient terms when learning the value function using true-gradient update: forward gradient (taken on the current state) and backward gradient (taken on the next state). Using forward gradient bears a large similarity to many offline RL methods, and thus can be regarded as applying action-level constraint. However, directly adding the backward gradient may degenerate or cancel out its effect if these two gradients have conflicting directions. To resolve this issue, we propose a simple yet effective modification that projects the backward gradient onto the normal plane of the forward gradient, resulting in an orthogonal-gradient update, a new learning rule for DICE-based methods. We conduct thorough theoretical analyses and find that the projected backward gradient brings state-level behavior regularization, which reveals the mystery of DICE-based methods: the value learning objective does try to impose state-action-level constraint, but needs to be used in a corrected way. Through toy examples and extensive experiments on complex offline RL and IL tasks, we demonstrate that DICE-based methods using orthogonal-gradient updates (O-DICE) achieve SOTA performance and great robustness.
评论: 聚焦 ICLR 2024,前两位作者贡献相同
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI)
引用方式: arXiv:2402.00348 [cs.LG]
  (或者 arXiv:2402.00348v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2402.00348
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Haoran Xu [查看电子邮件]
[v1] 星期四, 2024 年 2 月 1 日 05:30:51 UTC (704 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-02
切换浏览方式为:
cs
cs.AI

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号