计算机科学 > 机器学习
[提交于 2020年3月9日
]
标题: 度量空间中高效无模型强化学习的缩放方法
标题: Zooming for Efficient Model-Free Reinforcement Learning in Metric Spaces
摘要: 尽管在可证明高效的强化学习算法方面有大量研究,但大多数工作集中在表格表示上,因此难以处理指数级或无限大的状态-动作空间。 在本文中,我们考虑具有连续状态-动作空间的周期性强化学习,该空间假定配备了一个自然度量,用于表征不同状态和动作之间的接近程度。 我们提出了ZoomRL,这是一种在线算法,借鉴了连续多臂老虎机的思想,通过在更有希望且经常访问的区域进行细化,同时仔细平衡利用与探索的权衡,来学习联合空间的自适应离散化。 我们证明ZoomRL在最坏情况下的累积损失为$\tilde{O}(H^{\frac{5}{2}} K^{\frac{d+1}{d+2}})$,其中$H$是规划时域,$K$是回合数,$d$是相对于度量的空间覆盖维数。 此外,我们的算法享有改进的与度量相关的保证,这些保证反映了底层空间的几何结构。 最后,我们证明我们的算法对小的误指正误差具有鲁棒性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.