计算机科学 > 机器人技术
[提交于 2025年7月16日
(v1)
,最后修订 2025年7月18日 (此版本, v3)]
标题: EgoVLA:从第一人称人类视频中学习视觉-语言-动作模型
标题: EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos
摘要: 真实机器人数据收集在模仿学习中已经带来了机器人操作的重大进展。 然而,在这个过程中对机器人硬件的要求从根本上限制了数据的规模。 在本文中,我们探索使用第一视角的人类视频来训练视觉-语言-动作(VLA)模型。 使用人类视频的好处不仅在于其规模,更重要的是场景和任务的丰富性。 通过一个在人类视频上训练的VLA模型,该模型可以预测人类手腕和手部动作,我们可以执行逆运动学和动作迁移,将人类动作转换为机器人动作。 我们使用少量的机器人操作示范微调模型以获得机器人策略,即EgoVLA。 我们提出一个名为Ego Humanoid Manipulation Benchmark的仿真基准,其中我们设计了多样化的双手操作任务并提供了示范。 我们使用Ego Humanoid Manipulation Benchmark对EgoVLA进行微调和评估,并展示了相对于基线的显著改进,同时分析了人类数据的重要性。 视频可以在我们的网站上找到:https://rchalyang.github.io/EgoVLA
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.