计算机科学 > 机器学习
[提交于 2020年3月9日
(v1)
,最后修订 2020年6月19日 (此版本, v2)]
标题: 通过离策略发散正则化实现稳定的策略优化
标题: Stable Policy Optimization via Off-Policy Divergence Regularization
摘要: 信任区域策略优化(TRPO)和近端策略优化(PPO)是深度强化学习(RL)中最为成功的策略梯度方法之一。虽然这些方法在广泛的任务中实现了最先进的性能,但在策略学习的稳定性以及如何使用离策略数据方面仍有改进空间。在本文中,我们重新审视这些算法的理论基础,并提出一种新算法,该算法通过一个邻近项稳定策略改进,该邻近项约束由连续策略产生的折扣状态-动作访问分布彼此接近。这个邻近项以访问分布之间的差异来表示,并以离策略和对抗的方式进行学习。我们通过实验表明,所提出的方法可以在基准高维控制任务中对稳定性产生有益影响并提高最终性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.