计算机科学 > 人工智能
标题: “给我一个这样的例子”:从示范中进行情景主动强化学习
标题: "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations
摘要: 强化学习(RL)在序列决策问题中取得了巨大成功,但通常需要大量的智能体-环境交互。为了提高样本效率,像从专家演示中进行强化学习(RLED)这样的方法引入了外部专家演示,以在学习过程中促进智能体的探索。实际上,这些演示通常是从人类用户那里收集的,成本较高,因此通常受到数量限制。因此,如何选择对学习最有益的最佳人类演示集成为主要关注点。本文提出了EARLY(基于轨迹的主动从演示中学习),一种使学习智能体能够在基于轨迹的特征空间中生成优化查询的算法。基于对智能体当前策略的轨迹级不确定性估计,EARLY确定基于特征查询的优化时间和内容。通过查询情节演示而不是孤立的状态-动作对,EARLY提高了人类教学体验并实现了更好的学习性能。我们在三个难度逐渐增加的模拟导航任务中验证了我们方法的有效性。结果表明,当演示由模拟的oracle策略生成时,我们的方法能够在比其他基线方法快30%以上的收敛速度下实现所有三个任务的专家级性能。后续的小规模用户研究(N=18)的结果进一步验证了在人类专家演示的情况下,我们的方法仍能保持显著更好的收敛性,同时在感知任务负荷方面实现更好的用户体验,并显著减少人类时间的消耗。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.