计算机科学 > 机器学习
[提交于 2018年6月2日
]
标题: 具有多维动作空间的策略梯度的有效熵
标题: Efficient Entropy for Policy Gradient with Multidimensional Action Space
摘要: 近年来,深度强化学习已被证明在解决高维状态空间的顺序决策过程方面非常擅长,例如在Atari游戏中。 许多强化学习问题也涉及高维离散动作空间以及高维状态空间。 本文考虑了熵奖励,该奖励用于在策略梯度中鼓励探索。 在高维动作空间的情况下,计算熵及其梯度需要枚举动作空间中的所有动作,并为每个动作进行前向传播和反向传播,这可能在计算上不可行。 我们开发了几种新颖的无偏估计器用于熵奖励及其梯度。 我们将这些估计器应用于几种参数化策略模型,包括独立采样、CommNet、带修改MDP的自回归模型以及带LSTM的自回归模型。 最后,我们在两个环境中测试了我们的算法:一个多猎人多兔子网格游戏和一个多智能体多臂老虎机问题。 结果表明,我们的熵估计器在计算成本增加很小的情况下显著提高了性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.