计算机科学 > 机器人技术
[提交于 2025年7月7日
]
标题: CueLearner:从相对反馈中进行自举和局部策略适应
标题: CueLearner: Bootstrapping and local policy adaptation from relative feedback
摘要: 人类指导已成为增强强化学习(RL)的强大工具。 然而,传统的指导形式,如示范或二进制标量反馈,可能难以收集或信息含量低,这促使探索其他形式的人类输入。 其中,相对反馈(即对如何改进一个动作的反馈,例如“更向左”)在易用性和信息丰富性之间提供了良好的平衡。 先前的研究表明,相对反馈可以用于增强策略搜索方法。 然而,这些努力仅限于特定的策略类别,并且未能有效地利用反馈。 在本工作中,我们引入了一种从相对反馈中学习的新方法,并将其与离策略强化学习相结合。 通过在两个稀疏奖励任务上的评估,我们证明了我们的方法可以通过引导其探索过程来提高强化学习的样本效率。 此外,我们展示了它能够适应环境变化或用户偏好的变化。 最后,我们通过在稀疏奖励设置中使用我们的方法学习导航策略,证明了该方法的实际应用价值。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.