计算机科学 > 计算机视觉与模式识别
[提交于 2025年4月1日
(v1)
,最后修订 2025年4月21日 (此版本, v2)]
标题: Scene4U:基于单张全景图像的分层3D场景重建,用于沉浸式探索
标题: Scene4U: Hierarchical Layered 3D Scene Reconstruction from Single Panoramic Image for Your Immerse Exploration
摘要: 沉浸式和真实的三维场景重建在计算机视觉和计算机图形学的各个领域具有重要的实际意义。 通常,沉浸式和真实的场景应该不受动态物体遮挡的影响,保持全局纹理一致性,并允许无限制地探索。 当前主流的图像驱动场景构建方法涉及使用移动虚拟相机迭代优化初始图像以生成场景。 然而,先前的方法由于相机姿态变化下的全局纹理不一致而难以避免视觉不连续性,并且经常出现由前景-背景遮挡引起的场景空洞。 为此,我们提出了一种基于全景图的新颖分层三维场景重建框架,名为Scene4U。 具体而言,Scene4U将开放词汇分割模型与大型语言模型相结合,将真实全景图分解为多个层次。 然后,我们采用基于扩散模型的分层修复模块,利用视觉线索和深度信息恢复被遮挡的区域,生成场景的分层表示。 多层全景图随后初始化为三维高斯点阵表示,接着进行分层优化,最终生成支持自由探索的具有语义和结构一致性的沉浸式三维场景。 Scene4U在LPIPS指标上比最先进的方法提高了24.24%,在BRISQUE指标上提高了24.40%,同时实现了最快的训练速度。 此外,为了展示Scene4U的鲁棒性并让用户体验来自各种地标的真实场景,我们构建了WorldVista3D数据集用于三维场景重建,该数据集包含了全球著名地点的全景图像。 实现代码和数据集将在https://github.com/LongHZ140516/Scene4U发布。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.