计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月28日
]
标题: RoboPearls:机器人操作的可编辑视频仿真
标题: RoboPearls: Editable Video Simulation for Robot Manipulation
摘要: 通用机器人操作策略的发展取得了显著进展,这得益于在多样化环境中的大规模演示数据。 然而,收集现实世界演示的高成本和低效率阻碍了数据获取的可扩展性。 虽然现有的仿真平台为机器人学习提供了受控环境,但弥合仿真到现实之间的差距仍然是一个挑战。 为了解决这些挑战,我们提出了RoboPearls,这是一个可编辑的视频仿真框架,用于机器人操作。 基于3D高斯点云(3DGS),RoboPearls能够从演示视频中构建逼真的、视角一致的仿真,并支持广泛的仿真操作符,包括各种物体操作,这些操作由先进的模块如增量语义蒸馏(ISD)和3D正则化NNFM损失(3D-NNFM)提供支持。 此外,通过结合大型语言模型(LLMs),RoboPearls通过灵活的命令解释和执行,以用户友好的方式自动化仿真生产过程。 此外,RoboPearls采用视觉-语言模型(VLM)分析机器人学习问题,以闭合仿真循环来提高性能。 为了展示RoboPearls的有效性,我们在多个数据集和场景上进行了广泛的实验,包括RLBench、COLOSSEUM、Ego4D、Open X-Embodiment和一个真实世界的机器人,这些实验展示了我们令人满意的仿真性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.