计算机科学 > 机器人技术
[提交于 2025年7月3日
]
标题: 多模态生成:在仿真中使用多模态生成来学习真实世界的多模态策略
标题: MultiGen: Using Multimodal Generation in Simulation to Learn Multimodal Policies in Real
摘要: 机器人必须整合多种感觉模态,以便在现实世界中有效行动。 然而,在大规模上学习这种多模态策略仍然具有挑战性。 仿真提供了一个可行的解决方案,但尽管视觉受益于高保真模拟器,其他模态(例如声音)却难以模拟。 因此,仿生到现实的迁移主要在基于视觉的任务中取得成功,而多模态迁移仍 largely 未实现。 在这项工作中,我们通过引入 MultiGen 来解决这些挑战,这是一个将大规模生成模型集成到传统物理模拟器中的框架,实现了多感官仿真。 我们在动态任务机器人倒水上展示了我们的框架,该任务本质上依赖于多模态反馈。 通过根据模拟视频合成逼真的音频,我们的方法实现了在丰富视听轨迹上的训练——而无需任何真实机器人数据。 我们展示了在新型容器和液体上的有效零样本迁移,突显了生成建模在模拟难以建模的模态和缩小多模态仿生到现实差距方面的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.