计算机科学 > 机器人技术
[提交于 2025年7月1日
]
标题: VQ-VLA:通过扩展向量量化动作分词器改进视觉-语言-动作模型
标题: VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers
摘要: 在本文中,我们引入了一个基于创新向量量化的行为标记器,该标记器建立在迄今为止最大规模的动作轨迹数据集之上,利用的数据量是之前方法的100多倍。 这个庞大的数据集使我们的标记器能够捕捉丰富的时空动态,从而生成一个不仅加速推理而且产生更平滑、更连贯动作输出的模型。 训练完成后,该标记器可以以零样本方式无缝适应各种下游任务,从短时域的反应行为到长时域的规划。 我们工作的关键发现是合成与真实动作轨迹之间的领域差距很小,这使我们在训练过程中能够有效利用大量合成数据而不影响实际性能。 为了验证我们的方法,我们在模拟环境和真实的机器人平台上进行了广泛的实验。 结果表明,随着合成轨迹数据量的增加,我们的标记器在下游任务上的性能显著提高——最明显的是,在长时域场景中的两个现实任务中成功率达到30%的提升。 这些发现突显了我们的动作标记器作为实时具身智能系统的一种强大且可扩展解决方案的潜力,为在不同应用领域中更高效和可靠的机器人控制铺平了道路。 项目网站:https://xiaoxiao0406.github.io/vqvla.github.io
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.