计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
(v1)
,最后修订 2025年6月9日 (此版本, v2)]
标题: E3D-Bench:端到端3D几何基础模型的基准测试
标题: E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models
摘要: 空间智能,包括三维重建、感知和推理,是机器人、航空成像和扩展现实等应用的基础。一个关键的推动因素是从非结构化或流式图像中实时、准确地估计核心三维属性(相机参数、点云、深度图和三维点轨迹)。 受到大型基础模型在语言和二维视觉领域成功的影响,一种新的端到端三维几何基础模型(GFMs)类涌现出来,可以直接预测密集的三维表示,在单一前馈过程中完成,消除了对缓慢或不可用的预计算相机参数的需求。 自2023年末以来,该领域涌现出各种变体,但缺乏系统评估。 在这项工作中,我们提出了第一个针对三维GFMs的全面基准测试,涵盖了五个核心任务:稀疏视图深度估计、视频深度估计、三维重建、多视图姿态估计、新视图合成,并涵盖了标准和具有挑战性的分布外数据集。 我们的标准化工具包实现了数据集处理、评估协议和指标计算的自动化,以确保公平、可重复的比较。 我们评估了16种最先进的GFMs,在任务和领域上揭示了它们的优势和局限性,并得出了指导未来模型扩展和优化的关键见解。 所有代码、评估脚本和处理后的数据都将公开发布,以加速三维空间智能领域的研究。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.