Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.01778

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.01778 (cs)
[提交于 2025年6月2日 ]

标题: 无监督多目标分割的中心边界推理

标题: unMORE: Unsupervised Multi-Object Segmentation via Center-Boundary Reasoning

Authors:Yafei Yang, Zihui Zhang, Bo Yang
摘要: 我们研究了单张图像上无监督多目标分割这一具有挑战性的问题。现有方法依赖于图像重建目标来学习目标性(objectness)或者利用预训练的图像特征来聚合相似像素,通常只能成功分割简单的合成对象或发现有限数量的真实世界对象。在本文中,我们提出了 unMORE,这是一种新颖的两阶段管道,旨在识别现实世界图像中的许多复杂对象。我们的方法的关键在于第一阶段显式地学习三个精心定义的对象中心表示层。随后,我们的多目标推理模块利用这些学到的目标先验知识在第二阶段发现多个对象。值得注意的是,这个推理模块完全不需要网络且不需要人工标签。广泛的实验表明,unMORE 在包括具有挑战性的 COCO 数据集在内的 6 个真实世界基准数据集上显著优于所有现有的无监督方法,实现了最先进的对象分割结果。令人印象深刻的是,我们的方法在所有基线崩溃的拥挤图像中表现出色。
摘要: We study the challenging problem of unsupervised multi-object segmentation on single images. Existing methods, which rely on image reconstruction objectives to learn objectness or leverage pretrained image features to group similar pixels, often succeed only in segmenting simple synthetic objects or discovering a limited number of real-world objects. In this paper, we introduce unMORE, a novel two-stage pipeline designed to identify many complex objects in real-world images. The key to our approach involves explicitly learning three levels of carefully defined object-centric representations in the first stage. Subsequently, our multi-object reasoning module utilizes these learned object priors to discover multiple objects in the second stage. Notably, this reasoning module is entirely network-free and does not require human labels. Extensive experiments demonstrate that unMORE significantly outperforms all existing unsupervised methods across 6 real-world benchmark datasets, including the challenging COCO dataset, achieving state-of-the-art object segmentation results. Remarkably, our method excels in crowded images where all baselines collapse.
评论: ICML 2025. 代码和数据可在以下网址获取:https://github.com/vLAR-group/unMORE
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI); 机器学习 (cs.LG); 机器人技术 (cs.RO)
引用方式: arXiv:2506.01778 [cs.CV]
  (或者 arXiv:2506.01778v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.01778
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Bo Yang [查看电子邮件]
[v1] 星期一, 2025 年 6 月 2 日 15:22:51 UTC (18,077 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.AI
cs.LG
cs.RO

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号