计算机科学 > 人工智能
[提交于 2015年7月1日
]
标题: True Online TD(λ)的实证评估
标题: An Empirical Evaluation of True Online TD(λ)
摘要: 最近提出了真正的在线 TD({\lambda }) 算法(van Seijen 和 Sutton,2014 年),作为时序差分学习和强化学习中流行的 TD({\lambda }) 算法的通用替代方案。与传统的 TD({\lambda }) 相比,真正的在线 TD({\lambda }) 具有更好的理论特性,并且预期它也能带来更快的学习速度。本文对这一假设进行了检验。具体来说,我们在具有挑战性的例子、随机马尔可夫奖励过程以及一款现实世界的肌电假肢手臂上比较了真正的在线 TD({\lambda }) 和 TD({\lambda }) 的性能。我们使用表格、二进制和非二进制特征的线性函数逼近方法。我们从三个维度评估这些算法:计算成本、学习速度和易用性。 我们的研究结果证实了真正在线 TD({\lambda }) 的优势:1) 对于稀疏特征向量,相对于 TD({\lambda }) 的计算开销可以忽略不计;对于非稀疏特征,计算时间最多是 TD({\lambda }) 的两倍;2) 在所有领域/表示中,真正在线 TD({\lambda }) 的学习速度通常优于 TD({\lambda }),但从未低于后者;3) 真正在线 TD({\lambda }) 更易于使用,因为它不需要在迹类型之间进行选择,并且对步长参数更为稳定。总体而言,我们的研究结果表明,真正在线 TD({\lambda }) 应当作为寻找高效通用 TD 方法的首选。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.