计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月1日
]
标题: World4Drive:通过意图感知的物理潜在世界模型实现端到端自动驾驶
标题: World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model
摘要: 端到端自动驾驶直接从原始传感器数据生成规划轨迹,但通常依赖于昂贵的感知监督来提取场景信息。 一个关键的研究挑战出现:构建一个信息丰富的驾驶世界模型,以实现无需感知注释的端到端规划,通过自监督学习。 在本文中,我们提出 World4Drive,一种端到端自动驾驶框架,该框架使用视觉基础模型构建潜在世界模型,用于生成和评估多模态规划轨迹。 具体来说,World4Drive首先提取场景特征,包括驾驶意图和由视觉基础模型提供的富含空间语义先验的潜在世界表示。 然后,它根据当前场景特征和驾驶意图生成多模态规划轨迹,并在潜在空间内预测多个由意图驱动的未来状态。 最后,它引入一个世界模型选择模块来评估和选择最佳轨迹。 我们通过实际未来观测与从潜在空间重建的预测观测之间的自监督对齐实现了无需感知注释的端到端规划。 World4Drive在开环的nuScenes和闭环的NavSim基准测试中均实现了最先进的性能,展示了L2误差降低了18.1%,碰撞率降低了46.7%,训练收敛速度提高了3.75倍。 代码将在https://github.com/ucaszyp/World4Drive获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.