计算机科学 > 计算机视觉与模式识别
[提交于 2025年2月2日
]
标题: 视觉与语言参考提示用于少样本分割
标题: Vision and Language Reference Prompt into SAM for Few-shot Segmentation
摘要: 分割一切模型(SAM)代表一个大规模的分割模型,能够通过灵活的提示实现强大的零样本能力。 虽然SAM可以在零样本情况下分割任何对象,但它需要用户为每个目标图像提供提示,并且不会将任何标签信息附加到掩码上。 少样本分割模型通过输入带注释的参考图像作为SAM的提示来解决这些问题,并且可以在没有用户提供提示的情况下分割目标图像中的特定对象。 以前基于SAM的少样本分割模型仅使用带注释的参考图像作为提示,由于缺乏参考信息导致准确性有限。 在本文中,我们提出了一种新的少样本分割模型,视觉和语言参考提示进入SAM(VLP-SAM),该模型通过不仅输入图像还输入语言作为参考信息,利用参考图像的视觉信息和文本标签的语义信息。 特别是,VLP-SAM是一个简单且可扩展的结构,具有最小的学习参数,它使用多模态视觉语言模型将包含视觉语言信息的提示嵌入输入到SAM中。 为了证明VLP-SAM的有效性,我们在PASCAL-5i和COCO-20i数据集上进行了实验,并在少样本分割任务中取得了高性能,分别以6.3%和9.5%的mIoU大幅超越了之前的最先进模型。 此外,VLP-SAM展示了其在未见对象上的泛化能力,这些对象未包含在训练数据中。 我们的代码可在https://github.com/kosukesakurai1/VLP-SAM获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.