计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
(v1)
,最后修订 2025年6月4日 (此版本, v2)]
标题: SAB3R:三维重建中的语义增强主干网络
标题: SAB3R: Semantic-Augmented Backbone in 3D Reconstruction
摘要: 我们引入了一项新任务,称为“Map and Locate”,它统一了开放词汇分割(基于自然语言查询检测和分割对象实例)和三维重建(从视觉输入估计场景三维结构)这两个传统上截然不同的目标。 具体来说, Map and Locate 涉及从未定位的视频生成点云,并根据开放词汇查询分割对象实例。这项任务是迈向现实世界具身人工智能应用的关键一步,同时提出了一个连接重建、识别和重组的实际任务。 为了解决这一任务,我们提出了一种简单但有效的基线模型,命名为 SAB3R。 我们的方法基于最近在三维计算机视觉领域取得突破的 MASt3R,并结合了一种轻量级蒸馏策略。 该方法将来自二维视觉主干网络(例如 CLIP 和 DINOv2)的密集逐像素语义特征转移到 MASt3R 上,以增强其能力。 无需引入任何辅助冻结网络,我们的模型可以在单次前向传播中生成逐像素语义特征并构建一致的点地图。 与单独部署 MASt3R 和 CLIP 相比,我们的统一模型 SAB3R 在 Map and Locate 基准测试中表现出色。 此外,我们在二维语义分割和三维任务上评估了 SAB3R,以全面验证其有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.