计算机科学 > 机器学习
[提交于 2019年10月17日
(v1)
,最后修订 2020年2月12日 (此版本, v3)]
标题: 强化学习中的单次策略迁移
标题: Single Episode Policy Transfer in Reinforcement Learning
摘要: 在强化学习(RL)中,迁移到新的未知环境动态是一项关键挑战。一个更大的挑战是在测试时单次尝试中近乎最优地执行,这可能没有密集奖励的访问权限,而当前需要多次经验回放以实现适应的方法无法解决这一问题。为了在一个具有相关动态的环境家族中实现单次试用迁移,我们提出了一种通用算法,该算法优化了一个探测器和一个推理模型,以便快速估计测试动态下的潜在变量,然后这些潜在变量立即作为通用控制策略的输入。这种模块化方法能够集成最先进的变分推理或强化学习算法。此外,我们的方法不需要在测试时访问奖励,使其能够在现有自适应方法无法工作的环境中运行。在具有单次试用测试约束的不同实验领域中,我们的方法显著优于现有的自适应方法,并且在鲁棒迁移方面表现出有利的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.