电气工程与系统科学 > 图像与视频处理
[提交于 2025年7月15日
]
标题: 关注纹理:重新思考掩码自编码器在医学图像分类中的预训练
标题: Focus on Texture: Rethinking Pre-training in Masked Autoencoders for Medical Image Classification
摘要: 掩码自编码器(MAEs)已成为自然图像中自监督表示学习的主导策略,其中模型被预训练以重建被遮罩的块,原始和重建的RGB值之间的像素级均方误差(MSE)作为损失。 我们观察到MSE鼓励模糊的图像重建,但在自然图像中仍然有效,因为它保留了主要的边缘。 然而,在医学成像中,当纹理线索对于视觉异常的分类更为重要时,该策略会失败。 受放射组学研究中灰度共生矩阵(GLCM)特征的启发,我们提出了一种基于MAE的新型预训练框架GLCM-MAE,使用基于匹配GLCM的重建损失。 GLCM捕获图像中的强度和空间关系,因此提出的损失有助于保留形态特征。 此外,我们提出了一种新的公式,将匹配的GLCM矩阵转换为可微分的损失函数。 我们证明了使用所提出的GLCM损失在医学图像上进行无监督预训练可以提高下游任务的表示效果。 GLCM-MAE在四个任务中均优于当前最先进的方法——通过超声图像检测胆囊癌提高2.1%,通过超声检测乳腺癌提高3.1%,通过X光检测肺炎提高0.5%,通过CT检测冠状病毒提高0.6%。 源代码和预训练模型可在以下地址获取:https://github.com/ChetanMadan/GLCM-MAE.
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.