Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.00603

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2507.00603 (cs)
[提交于 2025年7月1日 ]

标题: World4Drive:通过意图感知的物理潜在世界模型实现端到端自动驾驶

标题: World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model

Authors:Yupeng Zheng, Pengxuan Yang, Zebin Xing, Qichao Zhang, Yuhang Zheng, Yinfeng Gao, Pengfei Li, Teng Zhang, Zhongpu Xia, Peng Jia, Dongbin Zhao
摘要: 端到端自动驾驶直接从原始传感器数据生成规划轨迹,但通常依赖于昂贵的感知监督来提取场景信息。 一个关键的研究挑战出现:构建一个信息丰富的驾驶世界模型,以实现无需感知注释的端到端规划,通过自监督学习。 在本文中,我们提出 World4Drive,一种端到端自动驾驶框架,该框架使用视觉基础模型构建潜在世界模型,用于生成和评估多模态规划轨迹。 具体来说,World4Drive首先提取场景特征,包括驾驶意图和由视觉基础模型提供的富含空间语义先验的潜在世界表示。 然后,它根据当前场景特征和驾驶意图生成多模态规划轨迹,并在潜在空间内预测多个由意图驱动的未来状态。 最后,它引入一个世界模型选择模块来评估和选择最佳轨迹。 我们通过实际未来观测与从潜在空间重建的预测观测之间的自监督对齐实现了无需感知注释的端到端规划。 World4Drive在开环的nuScenes和闭环的NavSim基准测试中均实现了最先进的性能,展示了L2误差降低了18.1%,碰撞率降低了46.7%,训练收敛速度提高了3.75倍。 代码将在https://github.com/ucaszyp/World4Drive获取。
摘要: End-to-end autonomous driving directly generates planning trajectories from raw sensor data, yet it typically relies on costly perception supervision to extract scene information. A critical research challenge arises: constructing an informative driving world model to enable perception annotation-free, end-to-end planning via self-supervised learning. In this paper, we present World4Drive, an end-to-end autonomous driving framework that employs vision foundation models to build latent world models for generating and evaluating multi-modal planning trajectories. Specifically, World4Drive first extracts scene features, including driving intention and world latent representations enriched with spatial-semantic priors provided by vision foundation models. It then generates multi-modal planning trajectories based on current scene features and driving intentions and predicts multiple intention-driven future states within the latent space. Finally, it introduces a world model selector module to evaluate and select the best trajectory. We achieve perception annotation-free, end-to-end planning through self-supervised alignment between actual future observations and predicted observations reconstructed from the latent space. World4Drive achieves state-of-the-art performance without manual perception annotations on both the open-loop nuScenes and closed-loop NavSim benchmarks, demonstrating an 18.1\% relative reduction in L2 error, 46.7% lower collision rate, and 3.75 faster training convergence. Codes will be accessed at https://github.com/ucaszyp/World4Drive.
评论: ICCV 2025,第一版
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2507.00603 [cs.CV]
  (或者 arXiv:2507.00603v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.00603
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Yupeng Zheng [查看电子邮件]
[v1] 星期二, 2025 年 7 月 1 日 09:36:38 UTC (1,486 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号