计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月1日
(v1)
,最后修订 2025年8月5日 (此版本, v2)]
标题: 多模态指代分割:综述
标题: Multimodal Referring Segmentation: A Survey
摘要: 多模态指代分割旨在基于文本或音频格式的指代表达,在视觉场景(如图像、视频和3D场景)中分割目标对象。 这项任务在需要根据用户指令进行准确物体感知的实际应用中起着至关重要的作用。 在过去十年中,由于卷积神经网络、变压器和大型语言模型的进步,它在多模态领域获得了广泛关注,所有这些都显著提高了多模态感知能力。 本文对多模态指代分割进行了全面的综述。 我们首先介绍该领域的背景,包括问题定义和常用数据集。 接下来,我们总结了一个统一的元架构用于指代分割,并回顾了三种主要视觉场景(包括图像、视频和3D场景)中的代表性方法。 我们进一步讨论了广义指代表达(GREx)方法,以应对现实世界的复杂性挑战,以及相关任务和实际应用。 还提供了在标准基准上的广泛性能比较。 我们持续跟踪相关工作,网址为https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.