Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:1806.01175v1

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:1806.01175v1 (cs)
[提交于 2018年6月4日 ]

标题: TD或非TD:分析时间差分在深度强化学习中的作用

标题: TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning

Authors:Artemij Amiranashvili, Alexey Dosovitskiy, Vladlen Koltun, Thomas Brox
摘要: 我们对强化学习(RL)的理解是由几十年前使用表格表示和线性函数近似器获得的理论和实证结果塑造的。这些结果表明,使用时间差分(TD)的RL方法优于直接蒙特卡洛估计(MC)。在深度RL中,处理感知复杂的环境和深度非线性模型时,这些结果是否仍然成立?在本文中,我们使用专门设计的环境重新审视现代深度RL中TD的作用,这些环境控制了影响性能的具体因素,如奖励稀疏性、奖励延迟和任务的感知复杂性。在比较无限时限MC与TD时,我们能够在现代环境中重现经典结果。然而我们也发现,当奖励稀疏或延迟时,有限时限MC并不逊色于TD。这使得MC成为深度RL中TD的一种可行替代方案。
摘要: Our understanding of reinforcement learning (RL) has been shaped by theoretical and empirical results that were obtained decades ago using tabular representations and linear function approximators. These results suggest that RL methods that use temporal differencing (TD) are superior to direct Monte Carlo estimation (MC). How do these results hold up in deep RL, which deals with perceptually complex environments and deep nonlinear models? In this paper, we re-examine the role of TD in modern deep RL, using specially designed environments that control for specific factors that affect performance, such as reward sparsity, reward delay, and the perceptual complexity of the task. When comparing TD with infinite-horizon MC, we are able to reproduce classic results in modern settings. Yet we also find that finite-horizon MC is not inferior to TD, even when rewards are sparse or delayed. This makes MC a viable alternative to TD in deep RL.
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI); 机器学习 (stat.ML)
引用方式: arXiv:1806.01175 [cs.LG]
  (或者 arXiv:1806.01175v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.1806.01175
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Artemij Amiranashvili [查看电子邮件]
[v1] 星期一, 2018 年 6 月 4 日 16:16:51 UTC (1,119 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2018-06
切换浏览方式为:
cs
cs.AI
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号