计算机科学 > 机器人技术
[提交于 2024年11月1日
(v1)
,最后修订 2025年5月10日 (此版本, v4)]
标题: CLIP-RT:从自然语言监督中学习语言条件的机器人策略
标题: CLIP-RT: Learning Language-Conditioned Robotic Policies from Natural Language Supervision
摘要: 在真实环境中教授机器人所需技能仍然具有挑战性,尤其是对于非专家而言。 一个关键瓶颈在于,收集机器人数据通常需要专业知识或专用硬件,这限制了可访问性和可扩展性。 我们认为,自然语言提供了一个直观且易用的机器人学习接口。 为此,我们研究了两个方面:(1) 让非专家通过自然语言监督(例如,“将手臂移向右边”)收集机器人数据;(2) 直接从这种监督训练机器人策略。 具体来说,我们引入了一个基于自然语言监督收集机器人演示的数据收集框架,并进一步扩充这些演示。 然后我们提出 CLIP-RT,这是一种新的视觉-语言-动作(VLA)模型,它从这种监督中学到语言条件下的视触觉策略。 CLIP-RT 调整了预训练的 CLIP 模型,并通过对比模仿学习学会预测基于语言的运动基元。 我们在 Open X-Embodiment 数据集上训练 CLIP-RT,并使用我们的框架收集的领域内数据对其进行微调。 在现实世界评估中,CLIP-RT 展现了强大的学习新操作技能的能力,在平均成功率方面比 OpenVLA(7B 参数)高出 24%,同时使用的参数量仅为 OpenVLA 的 1/7(1B 参数)。 我们进一步评估了 CLIP-RT 在少量样本泛化和涉及大预训练模型或人类的合作场景中的能力。 在模拟环境中,CLIP-RT 也表现出色,在 LIBERO 基准测试中达到 93.1% 的平均成功率,推理吞吐量为 163 Hz。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.