计算机科学 > 机器人技术
[提交于 2025年6月2日
]
标题: 快在慢中:统一快速操作与缓慢推理的双重系统基础模型
标题: Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning
摘要: 通用策略和执行效率构成了机器人操作的两个关键挑战。虽然最近的基础策略得益于互联网规模预训练视觉-语言模型(VLMs)的常识推理能力,但它们往往面临低执行频率的问题。为了解决这一困境,受卡尼曼理论的启发,提出了双系统方法,利用基于VLM的系统2模型处理高级推理,以及独立的系统1动作模型确保实时控制。 然而,现有的设计将两个系统保持为独立模型,限制了系统1无法充分利用来自基于VLM的系统2的丰富预训练知识。 在这项工作中,我们提出了Fast-in-Slow(FiS),这是一种统一的双系统视觉-语言-动作(VLA)模型,通过部分共享参数将系统1执行模块嵌入到基于VLM的系统2中。这种创新范式不仅使系统1能够实现高频执行,还促进了系统2单个基础模型内推理和执行组件之间的协调。 鉴于FiS-VLA中两个系统具有根本不同的角色,我们设计了两个系统以整合异构模态输入和异步操作频率,从而实现快速且精确的操作。 为了促进两个系统的协调,提出了一种双感知协同训练策略,该策略使系统1具备动作生成能力,同时保留系统2的上下文推理表示。 对于评估, FiS-VLA在模拟环境中比之前的最先进方法提高了8%,在现实任务中的平均成功率提高了11%,同时在动作块设置为八的情况下实现了117.7 Hz的控制频率。 项目网页:fast-in-slow.github.io。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.