Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.12496

帮助 | 高级搜索

计算机科学 > 机器人技术

arXiv:2507.12496 (cs)
[提交于 2025年7月15日 ]

标题: 创始人:在世界模型中建立基础模型以实现开放式的具身决策

标题: FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making

Authors:Yucen Wang, Rui Yu, Shenghua Wan, Le Gan, De-Chuan Zhan
摘要: 基础模型(FMs)和世界模型(WMs)在不同层次的任务泛化中提供了互补的优势。 在本工作中,我们提出了FOUNDER,一种将FMs中嵌入的可泛化知识与WMs的动态建模能力相结合的框架,以在无奖励的情况下实现具身环境中的开放式任务求解。 我们学习一个映射函数,将FM表示接地到WM状态空间中,从而从外部观察中有效推断出代理在世界模拟器中的物理状态。 这种映射使得在行为学习过程中通过想象学习一个目标条件策略成为可能,其中映射后的任务作为目标状态。 我们的方法利用预测的目标状态的时间距离作为有信息量的奖励信号。 FOUNDER在各种多任务离线视觉控制基准测试中表现出色,特别是在捕捉由文本或视频指定的任务的深层语义方面表现突出,尤其是在涉及复杂观察或领域差距的场景中,先前的方法难以应对。 我们的学习奖励函数与真实奖励的一致性也通过实验得到了验证。 我们的项目网站是https://sites.google.com/view/founder-rl。
摘要: Foundation Models (FMs) and World Models (WMs) offer complementary strengths in task generalization at different levels. In this work, we propose FOUNDER, a framework that integrates the generalizable knowledge embedded in FMs with the dynamic modeling capabilities of WMs to enable open-ended task solving in embodied environments in a reward-free manner. We learn a mapping function that grounds FM representations in the WM state space, effectively inferring the agent's physical states in the world simulator from external observations. This mapping enables the learning of a goal-conditioned policy through imagination during behavior learning, with the mapped task serving as the goal state. Our method leverages the predicted temporal distance to the goal state as an informative reward signal. FOUNDER demonstrates superior performance on various multi-task offline visual control benchmarks, excelling in capturing the deep-level semantics of tasks specified by text or videos, particularly in scenarios involving complex observations or domain gaps where prior methods struggle. The consistency of our learned reward function with the ground-truth reward is also empirically validated. Our project website is https://sites.google.com/view/founder-rl.
评论: 被第四十二届国际机器学习大会(ICML 2025)接受
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI); 机器学习 (cs.LG)
引用方式: arXiv:2507.12496 [cs.RO]
  (或者 arXiv:2507.12496v1 [cs.RO] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.12496
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Yucen Wang [查看电子邮件]
[v1] 星期二, 2025 年 7 月 15 日 21:49:49 UTC (6,318 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.AI
cs.RO

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号