Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:1507.00353

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:1507.00353 (cs)
[提交于 2015年7月1日 ]

标题: True Online TD(λ)的实证评估

标题: An Empirical Evaluation of True Online TD(λ)

Authors:Harm van Seijen, A. Rupam Mahmood, Patrick M. Pilarski, Richard S. Sutton
摘要: 最近提出了真正的在线 TD({\lambda }) 算法(van Seijen 和 Sutton,2014 年),作为时序差分学习和强化学习中流行的 TD({\lambda }) 算法的通用替代方案。与传统的 TD({\lambda }) 相比,真正的在线 TD({\lambda }) 具有更好的理论特性,并且预期它也能带来更快的学习速度。本文对这一假设进行了检验。具体来说,我们在具有挑战性的例子、随机马尔可夫奖励过程以及一款现实世界的肌电假肢手臂上比较了真正的在线 TD({\lambda }) 和 TD({\lambda }) 的性能。我们使用表格、二进制和非二进制特征的线性函数逼近方法。我们从三个维度评估这些算法:计算成本、学习速度和易用性。 我们的研究结果证实了真正在线 TD({\lambda }) 的优势:1) 对于稀疏特征向量,相对于 TD({\lambda }) 的计算开销可以忽略不计;对于非稀疏特征,计算时间最多是 TD({\lambda }) 的两倍;2) 在所有领域/表示中,真正在线 TD({\lambda }) 的学习速度通常优于 TD({\lambda }),但从未低于后者;3) 真正在线 TD({\lambda }) 更易于使用,因为它不需要在迹类型之间进行选择,并且对步长参数更为稳定。总体而言,我们的研究结果表明,真正在线 TD({\lambda }) 应当作为寻找高效通用 TD 方法的首选。
摘要: The true online TD({\lambda}) algorithm has recently been proposed (van Seijen and Sutton, 2014) as a universal replacement for the popular TD({\lambda}) algorithm, in temporal-difference learning and reinforcement learning. True online TD({\lambda}) has better theoretical properties than conventional TD({\lambda}), and the expectation is that it also results in faster learning. In this paper, we put this hypothesis to the test. Specifically, we compare the performance of true online TD({\lambda}) with that of TD({\lambda}) on challenging examples, random Markov reward processes, and a real-world myoelectric prosthetic arm. We use linear function approximation with tabular, binary, and non-binary features. We assess the algorithms along three dimensions: computational cost, learning speed, and ease of use. Our results confirm the strength of true online TD({\lambda}): 1) for sparse feature vectors, the computational overhead with respect to TD({\lambda}) is minimal; for non-sparse features the computation time is at most twice that of TD({\lambda}), 2) across all domains/representations the learning speed of true online TD({\lambda}) is often better, but never worse than that of TD({\lambda}), and 3) true online TD({\lambda}) is easier to use, because it does not require choosing between trace types, and it is generally more stable with respect to the step-size. Overall, our results suggest that true online TD({\lambda}) should be the first choice when looking for an efficient, general-purpose TD method.
评论: 2015年欧洲强化学习研讨会 (EWRL)
主题: 人工智能 (cs.AI) ; 机器学习 (cs.LG); 机器学习 (stat.ML)
引用方式: arXiv:1507.00353 [cs.AI]
  (或者 arXiv:1507.00353v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.1507.00353
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Harm van Seijen [查看电子邮件]
[v1] 星期三, 2015 年 7 月 1 日 20:03:49 UTC (178 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2015-07
切换浏览方式为:
cs
cs.AI
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号