电气工程与系统科学 > 图像与视频处理
[提交于 2025年7月11日
]
标题: 视觉变压器与传统深度学习方法在胸部X光片自动肺炎检测中的比较分析
标题: Comparative Analysis of Vision Transformers and Traditional Deep Learning Approaches for Automated Pneumonia Detection in Chest X-Rays
摘要: 肺炎,特别是由像COVID-19这样的疾病引起的肺炎,仍然是一个需要快速和准确诊断的关键全球健康挑战。 本研究全面比较了传统机器学习和最先进的深度学习方法,用于使用胸部X光片(CXRs)的自动肺炎检测。 我们评估了多种方法,从传统的机器学习技术(基于PCA的聚类、逻辑回归和支持向量分类)到先进的深度学习架构,包括卷积神经网络(修改后的LeNet、DenseNet-121)和各种视觉变压器(ViT)实现(Deep-ViT、紧凑型卷积变压器和Cross-ViT)。 使用包含5,856张儿童胸部X光图像的数据集,我们证明视觉变压器,尤其是Cross-ViT架构,在准确率88.25%和召回率99.42%方面表现出色,超过了传统的CNN方法。 我们的分析表明,架构选择对性能的影响比模型大小更为显著,Cross-ViT的75M参数优于更大的模型。 该研究还考虑了实际因素,包括计算效率、训练需求以及在医学诊断中精确度和召回率之间的关键平衡。 我们的研究结果表明,视觉变压器为自动肺炎检测提供了一个有前景的方向,可能在健康危机期间实现更快和更准确的诊断。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.