计算机科学 > 机器人技术
[提交于 2025年7月2日
]
标题: 视觉-语言-动作模型综述:一种动作标记化视角
标题: A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
摘要: 视觉和语言基础模型在多模态理解、推理和生成方面的显著进步,激发了人们将此类智能扩展到物理世界的日益增长的努力,从而推动了视觉-语言-动作 (VLA) 模型的蓬勃发展。 尽管方法看似多样,但我们观察到,当前的 VLA 模型可以统一在一个框架下:视觉和语言输入由一系列 VLA 模块处理,生成一系列 \textit{动作标记},这些动作标记逐步编码更扎实、更可操作的信息,最终生成可执行的动作。 我们进一步确定,区分 VLA 模型的主要设计选择在于动作标记的表述方式,动作标记可以分为语言描述、代码、可供性、轨迹、目标状态、潜在表征、原始动作和推理。 然而,目前仍然缺乏对动作标记的全面理解,这严重阻碍了 VLA 的有效开发,并模糊了未来的发展方向。 因此,本综述旨在通过动作标记化的视角对现有的 VLA 研究进行分类和解读,提炼每种标记类型的优势和局限性,并找出需要改进的领域。 通过系统的回顾和分析,我们对 VLA 模型的更广泛发展进行了综合展望,重点介绍了一些尚未得到充分探索但前景光明的研究方向,并为未来的研究提供了指导,希望使该领域更接近通用智能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.