计算机科学 > 机器学习
[提交于 2024年2月1日
]
标题: ODICE:通过正交梯度更新揭示分布校正估计的奥秘
标题: ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update
摘要: 在本研究中,我们调查了分布校正估计(DICE)方法,这是离线强化学习(RL)和模仿学习(IL)中的一个重要研究方向。 基于DICE的方法施加状态-动作级别的行为约束,这是离线学习的理想选择。 然而,它们通常比仅使用动作级别行为约束的当前最先进(SOTA)方法表现差得多。 在重新审视基于DICE的方法后,我们发现当使用真实梯度更新学习价值函数时,存在两个梯度项:前向梯度(在当前状态上取)和后向梯度(在下一个状态上取)。 使用前向梯度与许多离线RL方法有很大相似性,因此可以视为应用动作级别约束。 然而,如果这两个梯度方向冲突,直接添加后向梯度可能会导致效果退化或抵消其影响。 为了解决这个问题,我们提出了一种简单而有效的修改,将后向梯度投影到前向梯度的法平面,从而得到一个正交梯度更新,这是基于DICE方法的新学习规则。 我们进行了详尽的理论分析,发现投影后的后向梯度带来了状态级别的行为正则化,这揭示了基于DICE方法的奥秘:价值学习目标确实试图施加状态-动作级别的约束,但需要以修正的方式使用。 通过简单的例子和在复杂离线RL和IL任务上的广泛实验,我们证明了使用正交梯度更新的基于DICE方法(O-DICE)达到了SOTA性能和出色的鲁棒性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.