Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2506.17337

帮助 | 高级搜索

电气工程与系统科学 > 图像与视频处理

arXiv:2506.17337 (eess)
[提交于 2025年6月19日 ]

标题: 普通视觉语言模型能否匹敌医学视觉语言模型? 评估与战略见解

标题: Can Common VLMs Rival Medical VLMs? Evaluation and Strategic Insights

Authors:Yuan Zhong, Ruinan Jin, Xiaoxiao Li, Qi Dou
摘要: 医学视觉语言模型(VLMs)利用大规模预训练进行多种成像任务,但需要大量的计算和数据资源。 同时,常见的或通用的VLMs(例如CLIP、LLaVA),尽管未针对医学用途进行训练,但通过微调显示出潜力。 这引发了一个关键问题:经过高效微调的通用VLMs能否在解决特定医学成像任务时与通用医学VLMs相媲美? 本研究系统地评估了常见VLMs和医学VLMs在疾病诊断和视觉问答(VQA)方面的表现。 使用基于CLIP和LLaVA的模型,我们检查了(1)在领域内(ID)设置中的现成性能差距,(2)微调是否能缩小这些差距,以及(3)在未见过的医学模态上的领域外(OOD)任务的泛化能力。 虽然医学专用预训练在ID设置中具有优势,但在轻量级微调后,通用VLMs的表现可以与医学专用模型相当甚至超越,其中基于LoRA的适应方法在不同任务中表现出高度有效性。 在OOD任务中,通用VLMs在某些任务中表现出强大的适应能力,挑战了医学专用预训练是必要的这一假设。 这些发现表明,利用经过微调的通用VLMs为开发大规模医学VLMs提供了一种可扩展且成本效益高的替代方案,为医学成像领域的未来研究提供了重要见解。
摘要: Medical vision-language models (VLMs) leverage large-scale pretraining for diverse imaging tasks but require substantial computational and data resources. Meanwhile, common or general-purpose VLMs (e.g., CLIP, LLaVA), though not trained for medical use, show promise with fine-tuning. This raises a key question: Can efficient fine-tuned common VLMs rival generalist medical VLMs for solving specific medical imaging tasks? This study systematically evaluates common and medical VLMs across disease diagnosis and visual question answering (VQA). Using CLIP-based and LLaVA-based models, we examine (1) off-the-shelf performance gaps in in-domain (ID) settings, (2) whether fine-tuning bridges these gaps, and (3) generalization to out-of-domain (OOD) tasks on unseen medical modalities. While medical-specific pretraining provides advantages in ID settings, common VLMs match or surpass medical-specific models after lightweight fine-tuning, with LoRA-based adaptation proving highly effective among different tasks. In OOD tasks, common VLMs demonstrate strong adaptability in some tasks, challenging the assumption that medical-specific pre-training is essential. These findings suggest that leveraging common VLMs with fine-tuning offers a scalable and cost-effective alternative to developing large-scale medical VLMs, providing crucial insights for future research in the medical imaging field.
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI); 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.17337 [eess.IV]
  (或者 arXiv:2506.17337v1 [eess.IV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.17337
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Yuan Zhong [查看电子邮件]
[v1] 星期四, 2025 年 6 月 19 日 07:59:00 UTC (1,075 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
eess
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.AI
cs.CV
eess.IV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号