Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:1806.00589

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:1806.00589 (cs)
[提交于 2018年6月2日 ]

标题: 具有多维动作空间的策略梯度的有效熵

标题: Efficient Entropy for Policy Gradient with Multidimensional Action Space

Authors:Yiming Zhang, Quan Ho Vuong, Kenny Song, Xiao-Yue Gong, Keith W. Ross
摘要: 近年来,深度强化学习已被证明在解决高维状态空间的顺序决策过程方面非常擅长,例如在Atari游戏中。 许多强化学习问题也涉及高维离散动作空间以及高维状态空间。 本文考虑了熵奖励,该奖励用于在策略梯度中鼓励探索。 在高维动作空间的情况下,计算熵及其梯度需要枚举动作空间中的所有动作,并为每个动作进行前向传播和反向传播,这可能在计算上不可行。 我们开发了几种新颖的无偏估计器用于熵奖励及其梯度。 我们将这些估计器应用于几种参数化策略模型,包括独立采样、CommNet、带修改MDP的自回归模型以及带LSTM的自回归模型。 最后,我们在两个环境中测试了我们的算法:一个多猎人多兔子网格游戏和一个多智能体多臂老虎机问题。 结果表明,我们的熵估计器在计算成本增加很小的情况下显著提高了性能。
摘要: In recent years, deep reinforcement learning has been shown to be adept at solving sequential decision processes with high-dimensional state spaces such as in the Atari games. Many reinforcement learning problems, however, involve high-dimensional discrete action spaces as well as high-dimensional state spaces. This paper considers entropy bonus, which is used to encourage exploration in policy gradient. In the case of high-dimensional action spaces, calculating the entropy and its gradient requires enumerating all the actions in the action space and running forward and backpropagation for each action, which may be computationally infeasible. We develop several novel unbiased estimators for the entropy bonus and its gradient. We apply these estimators to several models for the parameterized policies, including Independent Sampling, CommNet, Autoregressive with Modified MDP, and Autoregressive with LSTM. Finally, we test our algorithms on two environments: a multi-hunter multi-rabbit grid game and a multi-agent multi-arm bandit problem. The results show that our entropy estimators substantially improve performance with marginal additional computational cost.
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI); 系统与控制 (eess.SY); 机器学习 (stat.ML)
引用方式: arXiv:1806.00589 [cs.LG]
  (或者 arXiv:1806.00589v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.1806.00589
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Yiming Zhang [查看电子邮件]
[v1] 星期六, 2018 年 6 月 2 日 06:25:19 UTC (21 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2018-06
切换浏览方式为:
cs
cs.AI
cs.SY
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号