电气工程与系统科学 > 图像与视频处理
[提交于 2025年1月7日
]
标题: MedFocusCLIP:使用像素级注意力在医学数据集中改进少样本分类
标题: MedFocusCLIP : Improving few shot classification in medical datasets using pixel wise attention
摘要: 随着基础模型的普及,参数高效的微调已成为利用预训练模型执行下游任务的默认方法。 受到大型语言模型、视觉提示微调和类似技术的最新进展的启发,学习一个额外的提示,以高效地微调预训练的视觉基础模型。 然而,我们观察到,这种提示对于细粒度的视觉分类任务(如医学图像分类)来说是不够的,因为在这些任务中存在较大的类间差异和较小的类内差异。 因此,在本文中,我们提出利用Segment Anything Model 2 (SAM2)先进的分割能力作为视觉提示线索,通过引导CLIP(对比语言-图像预训练)视觉编码器中的注意力到图像中的相关区域,来帮助CLIP视觉编码器。 这有助于模型专注于高度区分性的区域,而不会被视觉相似的背景特征分散注意力,这是在少样本、细粒度分类设置中的基本要求。 我们在包括X射线、CT扫描和MRI图像在内的多种医学数据集上评估了我们的方法,并报告了在(COVID、肺部疾病、脑肿瘤、乳腺癌)数据集上,所提出方法的准确率分别为(71%、81%、86%、58%),而经过少样本训练的预训练CLIP模型的准确率分别为(66%、70%、68%、29%)。 所提出的方法还允许通过使用分割获得的定位信息,得到可解释的分类性能解释。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.