计算机科学 > 计算机视觉与模式识别
[提交于 2025年1月21日
]
标题: 视觉-语言模型用于自动胸部X光片解读:利用ViT和GPT-2
标题: Vision-Language Models for Automated Chest X-ray Interpretation: Leveraging ViT and GPT-2
摘要: 放射学在现代医学中起着关键作用,这是由于其非侵入性的诊断能力。 然而,手动生成非结构化医学报告既耗时又容易出错。 这在临床工作流程中形成了一个显著的瓶颈。 尽管人工智能生成的放射学报告取得了进展,但在实现详细和准确的报告生成方面仍存在挑战。 在本研究中,我们评估了不同组合的多模态模型,这些模型结合了计算机视觉和自然语言处理,以生成全面的放射学报告。 我们使用了预训练的视觉变换器(ViT-B16)和SWIN变换器作为图像编码器。 BART和GPT-2模型作为文本解码器。 我们使用IU-Xray数据集中的胸部X光图像和报告来评估SWIN变换器-BART、SWIN变换器-GPT-2、ViT-B16-BART和ViT-B16-GPT-2模型在报告生成中的可用性。 我们的目标是找到这些模型中的最佳组合。 SWIN-BART模型在四个模型中表现最佳,在ROUGE、BLEU和BERTScore等几乎所有评估指标中都取得了显著的结果。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.