计算机科学 > 机器学习
[提交于 2025年7月11日
]
标题: 行为探索:通过上下文适应学习探索
标题: Behavioral Exploration: Learning to Explore via In-Context Adaptation
摘要: 开发能够快速探索环境并在线适应行为的自主代理是机器人技术和机器学习中的一个经典挑战。 虽然人类能够在很少的交互中快速实现在线探索和适应,经常能够获取新的信息和技能,但现有的算法方法往往依赖于随机探索和缓慢的基于梯度的行为更新。 我们如何才能赋予自主代理与人类相当的能力? 受到最近在上下文学习和大规模行为克隆方面进展的启发,本文我们提出了行为探索:训练代理在“专家”行为的空间中内化什么是上下文中的探索和适应。 为了实现这一点,给定一个专家演示的数据集,我们训练一个长上下文生成模型,根据过去的观察和相对于该上下文的“探索性”来预测专家动作。 这使得模型不仅能够模仿专家的行为,而且通过将其过去的交互历史输入到其上下文中,可以选择不同于之前选择的专家行为,从而实现快速的在线适应和有针对性的“类似专家”的探索。 我们在模拟的运动和操作设置以及现实世界的机器人操作任务中展示了我们方法的有效性,说明了其学习适应性和探索性行为的能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.