计算机科学 > 机器学习
[提交于 2019年3月28日
]
标题: 如何选择强化学习策略的领域随机化参数以实现仿真到现实的迁移?
标题: How to pick the domain randomization parameters for sim-to-real transfer of reinforcement learning policies?
摘要: 最近,强化学习(RL)算法在从最少处理的输入中学习复杂行为方面表现出显著的成功。 然而,这种成功大多局限于模拟环境。 虽然在将RL算法直接应用于真实系统方面有令人鼓舞的成功,但它们在更复杂系统上的性能仍受到RL算法相对数据效率低下的瓶颈限制。 领域随机化是一种有前景的研究方向,已证明使用RL算法控制真实机器人的出色效果。 从高层次来看,领域随机化通过在模拟环境条件的分布上训练策略来工作。 如果环境足够多样化,那么在此分布上训练的策略可能会推广到现实世界。 领域随机化中的人工指定设计选择是模拟环境分布的形式和参数。 尚不清楚如何最佳地选择此分布的形式和参数,先前的工作使用了手动调整的分布。 本文摘要表明,分布的选择在训练策略在现实世界中的性能中起着关键作用,并且该分布的参数可以优化以最大化训练策略在现实世界中的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.