Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.02112

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.02112 (cs)
[提交于 2025年6月2日 (v1) ,最后修订 2025年6月4日 (此版本, v2)]

标题: SAB3R:三维重建中的语义增强主干网络

标题: SAB3R: Semantic-Augmented Backbone in 3D Reconstruction

Authors:Xuweiyi Chen, Tian Xia, Sihan Xu, Jianing Yang, Joyce Chai, Zezhou Cheng
摘要: 我们引入了一项新任务,称为“Map and Locate”,它统一了开放词汇分割(基于自然语言查询检测和分割对象实例)和三维重建(从视觉输入估计场景三维结构)这两个传统上截然不同的目标。 具体来说, Map and Locate 涉及从未定位的视频生成点云,并根据开放词汇查询分割对象实例。这项任务是迈向现实世界具身人工智能应用的关键一步,同时提出了一个连接重建、识别和重组的实际任务。 为了解决这一任务,我们提出了一种简单但有效的基线模型,命名为 SAB3R。 我们的方法基于最近在三维计算机视觉领域取得突破的 MASt3R,并结合了一种轻量级蒸馏策略。 该方法将来自二维视觉主干网络(例如 CLIP 和 DINOv2)的密集逐像素语义特征转移到 MASt3R 上,以增强其能力。 无需引入任何辅助冻结网络,我们的模型可以在单次前向传播中生成逐像素语义特征并构建一致的点地图。 与单独部署 MASt3R 和 CLIP 相比,我们的统一模型 SAB3R 在 Map and Locate 基准测试中表现出色。 此外,我们在二维语义分割和三维任务上评估了 SAB3R,以全面验证其有效性。
摘要: We introduce a new task, Map and Locate, which unifies the traditionally distinct objectives of open-vocabulary segmentation - detecting and segmenting object instances based on natural language queries - and 3D reconstruction, the process of estimating a scene's 3D structure from visual inputs. Specifically, Map and Locate involves generating a point cloud from an unposed video and segmenting object instances based on open-vocabulary queries. This task serves as a critical step toward real-world embodied AI applications and introduces a practical task that bridges reconstruction, recognition and reorganization. To tackle this task, we introduce a simple yet effective baseline, which we denote as SAB3R. Our approach builds upon MASt3R, a recent breakthrough in 3D computer vision, and incorporates a lightweight distillation strategy. This method transfers dense, per-pixel semantic features from 2D vision backbones (eg, CLIP and DINOv2) to enhance MASt3R's capabilities. Without introducing any auxiliary frozen networks, our model generates per-pixel semantic features and constructs cohesive point maps in a single forward pass. Compared to separately deploying MASt3R and CLIP, our unified model, SAB3R, achieves superior performance on the Map and Locate benchmark. Furthermore, we evaluate SAB3R on both 2D semantic segmentation and 3D tasks to comprehensively validate its effectiveness.
评论: 3D-LLM/VLA @ CVPR2025 | 项目页面:https://uva-computer-vision-lab.github.io/sab3r/
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.02112 [cs.CV]
  (或者 arXiv:2506.02112v2 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.02112
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Tian Xia [查看电子邮件]
[v1] 星期一, 2025 年 6 月 2 日 18:00:04 UTC (1,729 KB)
[v2] 星期三, 2025 年 6 月 4 日 02:28:08 UTC (1,729 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号