Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.01799

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.01799 (cs)
[提交于 2025年6月2日 ]

标题: WorldExplorer:迈向生成完全可导航的3D场景

标题: WorldExplorer: Towards Generating Fully Navigable 3D Scenes

Authors:Manuel-Andreas Schneider, Lukas Höllein, Matthias Nießner
摘要: 从文本生成三维世界是计算机视觉领域一个备受期待的目标。现有方法受限于场景内部的探索程度,即当超出中心视角或全景视角时,会产生拉长且杂乱无章的伪影。 为此,我们提出了WorldExplorer,这是一种基于自回归视频轨迹生成的新方法,能够在广泛的视点范围内构建完全可导航的三维场景,并保持一致的视觉质量。 我们通过创建与360度全景图相对应的多视图一致图像来初始化场景。 然后,在迭代场景生成管道中利用视频扩散模型对其进行扩展。 具体而言,我们沿着短小且预先定义的轨迹生成多个视频,这些视频深入探索场景,包括围绕物体的运动。 我们的新颖场景记忆机制使每个视频都基于最相关的先前视图,而碰撞检测机制则防止出现诸如进入物体之类的退化结果。 最后,我们通过3D高斯点阵优化将所有生成的视图融合成统一的3D表示。 与先前的方法相比,WorldExplorer生成的高质量场景在大范围相机运动下仍然保持稳定,首次实现了逼真且不受限制的探索。 我们认为这标志着向生成沉浸式且真正可探索的虚拟三维环境迈出了重要的一步。
摘要: Generating 3D worlds from text is a highly anticipated goal in computer vision. Existing works are limited by the degree of exploration they allow inside of a scene, i.e., produce streched-out and noisy artifacts when moving beyond central or panoramic perspectives. To this end, we propose WorldExplorer, a novel method based on autoregressive video trajectory generation, which builds fully navigable 3D scenes with consistent visual quality across a wide range of viewpoints. We initialize our scenes by creating multi-view consistent images corresponding to a 360 degree panorama. Then, we expand it by leveraging video diffusion models in an iterative scene generation pipeline. Concretely, we generate multiple videos along short, pre-defined trajectories, that explore the scene in depth, including motion around objects. Our novel scene memory conditions each video on the most relevant prior views, while a collision-detection mechanism prevents degenerate results, like moving into objects. Finally, we fuse all generated views into a unified 3D representation via 3D Gaussian Splatting optimization. Compared to prior approaches, WorldExplorer produces high-quality scenes that remain stable under large camera motion, enabling for the first time realistic and unrestricted exploration. We believe this marks a significant step toward generating immersive and truly explorable virtual 3D environments.
评论: 项目页面:见 https://the-world-explorer.github.io/,视频:见 https://youtu.be/c1lBnwJWNmE
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.01799 [cs.CV]
  (或者 arXiv:2506.01799v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.01799
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Lukas Höllein [查看电子邮件]
[v1] 星期一, 2025 年 6 月 2 日 15:41:31 UTC (32,356 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号