计算机科学 > 计算机视觉与模式识别
[提交于 2025年1月27日
]
标题: MM-Retinal V2:迁移精英知识火花到视网膜视觉语言预训练
标题: MM-Retinal V2: Transfer an Elite Knowledge Spark into Fundus Vision-Language Pretraining
摘要: 视觉-语言预训练(VLP)已被研究用于在视网膜图像分析中跨各种下游任务进行泛化。尽管最近的方法展示了有希望的成就,但它们严重依赖大规模的私有图像-文本数据,而对预训练方式的关注较少,这限制了它们的进一步发展。在本工作中,我们引入了MM-Retinal V2,一个高质量的图像-文本配对数据集,包括CFP、FFA和OCT图像模态。然后,我们提出了一种新的视网膜视觉-语言预训练模型,即KeepFIT V2,该模型通过将精英数据火花中的知识整合到分类公共数据集中进行预训练。具体来说,采用初步的文本预训练来为文本编码器提供主要的眼科文本知识。此外,设计了一个混合图像-文本知识注入模块用于知识迁移,这本质上基于对比学习中的全局语义概念和生成学习中的局部外观细节的结合。在零样本、少样本和线性探测设置中的大量实验突显了KeepFIT V2的泛化能力和可迁移性,其性能与在大规模私有图像-文本数据集上训练的最先进的视网膜VLP模型相当。我们的数据集和模型可通过https://github.com/lxirich/MM-Retinal公开获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.