计算机科学 > 机器人技术
[提交于 2025年6月24日
]
标题: CronusVLA:在操作中跨时间传递潜在运动以进行多帧预测
标题: CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation
摘要: 最近基于预训练视觉-语言模型(VLM)的视觉-语言-动作(VLA)模型在操作任务中表现出强大的泛化能力。 然而,它们仍然受到单帧观察范式的限制,无法充分利用聚合多帧历史观察提供的运动信息,因为大型视觉-语言主干模型会引入大量的计算成本和推理延迟。 我们提出了CronusVLA,一个统一的框架,通过高效的微调阶段将单帧VLA模型扩展到多帧范式。 CronusVLA包含三个关键组件:(1) 在大规模具身数据集上进行单帧预训练,通过自回归动作标记预测,建立一个具身视觉-语言基础;(2) 多帧编码,在微调过程中将视觉-语言主干的离散动作标记预测转换为运动特征,并将历史帧的运动特征聚合为特征分块;(3) 跨帧解码,通过具有交叉注意力的共享解码器将特征分块映射到准确的动作。 通过减少冗余标记计算并缓存过去的运动特征,CronusVLA实现了高效的推理。 作为运动特征的应用,我们进一步提出了一种基于特征-动作检索的动作适应机制,以在微调过程中提高模型性能。 CronusVLA在SimplerEnv上取得了最先进的性能,成功率为70.9%,在LIBERO上比OpenVLA提高了12.7%。 真实世界的Franka实验也展示了其强大的性能和鲁棒性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.