Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:1903.11774

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:1903.11774 (cs)
[提交于 2019年3月28日 ]

标题: 如何选择强化学习策略的领域随机化参数以实现仿真到现实的迁移?

标题: How to pick the domain randomization parameters for sim-to-real transfer of reinforcement learning policies?

Authors:Quan Vuong, Sharad Vikram, Hao Su, Sicun Gao, Henrik I. Christensen
摘要: 最近,强化学习(RL)算法在从最少处理的输入中学习复杂行为方面表现出显著的成功。 然而,这种成功大多局限于模拟环境。 虽然在将RL算法直接应用于真实系统方面有令人鼓舞的成功,但它们在更复杂系统上的性能仍受到RL算法相对数据效率低下的瓶颈限制。 领域随机化是一种有前景的研究方向,已证明使用RL算法控制真实机器人的出色效果。 从高层次来看,领域随机化通过在模拟环境条件的分布上训练策略来工作。 如果环境足够多样化,那么在此分布上训练的策略可能会推广到现实世界。 领域随机化中的人工指定设计选择是模拟环境分布的形式和参数。 尚不清楚如何最佳地选择此分布的形式和参数,先前的工作使用了手动调整的分布。 本文摘要表明,分布的选择在训练策略在现实世界中的性能中起着关键作用,并且该分布的参数可以优化以最大化训练策略在现实世界中的性能。
摘要: Recently, reinforcement learning (RL) algorithms have demonstrated remarkable success in learning complicated behaviors from minimally processed input. However, most of this success is limited to simulation. While there are promising successes in applying RL algorithms directly on real systems, their performance on more complex systems remains bottle-necked by the relative data inefficiency of RL algorithms. Domain randomization is a promising direction of research that has demonstrated impressive results using RL algorithms to control real robots. At a high level, domain randomization works by training a policy on a distribution of environmental conditions in simulation. If the environments are diverse enough, then the policy trained on this distribution will plausibly generalize to the real world. A human-specified design choice in domain randomization is the form and parameters of the distribution of simulated environments. It is unclear how to the best pick the form and parameters of this distribution and prior work uses hand-tuned distributions. This extended abstract demonstrates that the choice of the distribution plays a major role in the performance of the trained policies in the real world and that the parameter of this distribution can be optimized to maximize the performance of the trained policies in the real world
评论: 2页的扩展摘要
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI); 机器学习 (stat.ML)
引用方式: arXiv:1903.11774 [cs.LG]
  (或者 arXiv:1903.11774v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.1903.11774
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Quan Vuong [查看电子邮件]
[v1] 星期四, 2019 年 3 月 28 日 03:24:44 UTC (151 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2019-03
切换浏览方式为:
cs
cs.AI
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号