计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月1日
]
标题: BEV-VAE:用于自动驾驶的多视角图像生成与空间一致性
标题: BEV-VAE: Multi-view Image Generation with Spatial Consistency for Autonomous Driving
摘要: 多视角图像生成在自动驾驶中需要跨相机视角的一致性3D场景理解。 大多数现有方法将此问题视为2D图像集生成任务,缺乏显式的3D建模。 然而,我们认为结构化表示对于场景生成至关重要,尤其是在自动驾驶应用中。 本文提出了BEV-VAE,用于一致且可控的视角合成。 BEV-VAE首先训练一个多视角图像变分自编码器,以获得紧凑且统一的BEV潜在空间,然后使用潜在扩散变换器生成场景。 给定相机配置,BEV-VAE支持任意视角生成,并且可选地生成3D布局。 在nuScenes和Argoverse 2(AV2)上的实验表明,在3D一致重建和生成方面表现出色。 代码可在以下地址获取:https://github.com/Czm369/bev-vae.
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.