计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月2日
]
标题: 视觉变压器表示是否具有语义意义? 医学影像中的案例研究
标题: Are Vision Transformer Representations Semantically Meaningful? A Case Study in Medical Imaging
摘要: 视觉变压器(ViTs)由于其相比传统深度学习模型的优越准确性,在医学影像任务如疾病分类、分割和检测中迅速获得了关注。 然而,由于其规模和通过自注意机制的复杂交互,它们并不容易理解。 特别是,尚不清楚此类模型产生的表示是否具有语义意义。 在本文中,我们使用基于投影梯度的算法表明,它们的表示并不具有语义意义,并且对小的变化本质上是脆弱的。 具有难以察觉差异的图像可能有非常不同的表示;另一方面,应该属于不同语义类的图像可能有几乎相同的表示。 这种脆弱性可能导致不可靠的分类结果;例如,不易察觉的变化会导致分类准确率下降超过60%。 据我们所知,这是首次系统地展示ViT表示在医学图像分类中的基本语义无意义性,揭示了其在安全关键系统中部署时的一个关键挑战。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.