计算机科学 > 机器人技术
[提交于 2025年8月7日
]
标题: 学习看见和行动:用于机器人操作的任务感知视点规划
标题: Learning to See and Act: Task-Aware View Planning for Robotic Manipulation
摘要: 最近的多任务机器人操作视觉-语言-动作(VLA)模型通常依赖于静态视角和共享的视觉编码器,这限制了3D感知并导致任务干扰,阻碍了鲁棒性和泛化能力。 在本工作中,我们提出了任务感知视角规划(TAVP),这是一种通过将主动视角规划与任务特定表示学习相结合来克服这些挑战的框架。 TAVP采用了一种高效的探索策略,该策略通过一个新颖的伪环境加速,以主动获取信息丰富的视角。 此外,我们引入了一个专家混合(MoE)视觉编码器,以解耦不同任务之间的特征,提升表示精度和任务泛化能力。 通过以任务感知的方式观察世界,TAVP生成了更完整和具有区分性的视觉表示,在各种操作挑战中表现出显著增强的动作预测能力。 在RLBench任务上的大量实验表明,我们提出的TAVP模型在性能上优于最先进的固定视角方法。 视觉结果和代码可在以下网址获取:https://hcplab-sysu.github.io/TAVP.
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.