电气工程与系统科学 > 图像与视频处理
[提交于 2025年6月19日
]
标题: 普通视觉语言模型能否匹敌医学视觉语言模型? 评估与战略见解
标题: Can Common VLMs Rival Medical VLMs? Evaluation and Strategic Insights
摘要: 医学视觉语言模型(VLMs)利用大规模预训练进行多种成像任务,但需要大量的计算和数据资源。 同时,常见的或通用的VLMs(例如CLIP、LLaVA),尽管未针对医学用途进行训练,但通过微调显示出潜力。 这引发了一个关键问题:经过高效微调的通用VLMs能否在解决特定医学成像任务时与通用医学VLMs相媲美? 本研究系统地评估了常见VLMs和医学VLMs在疾病诊断和视觉问答(VQA)方面的表现。 使用基于CLIP和LLaVA的模型,我们检查了(1)在领域内(ID)设置中的现成性能差距,(2)微调是否能缩小这些差距,以及(3)在未见过的医学模态上的领域外(OOD)任务的泛化能力。 虽然医学专用预训练在ID设置中具有优势,但在轻量级微调后,通用VLMs的表现可以与医学专用模型相当甚至超越,其中基于LoRA的适应方法在不同任务中表现出高度有效性。 在OOD任务中,通用VLMs在某些任务中表现出强大的适应能力,挑战了医学专用预训练是必要的这一假设。 这些发现表明,利用经过微调的通用VLMs为开发大规模医学VLMs提供了一种可扩展且成本效益高的替代方案,为医学成像领域的未来研究提供了重要见解。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.