计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
(v1)
,最后修订 2025年6月4日 (此版本, v2)]
标题: Open-PMC-18M:用于多模态表示学习的高保真大规模医学数据集
标题: Open-PMC-18M: A High-Fidelity Large Scale Medical Dataset for Multimodal Representation Learning
摘要: 复合图形(由多个子图组成的多面板合成图)在生物医学文献中无处不在,但大规模子图提取仍未得到充分解决。 以往关于子图提取的工作在数据集规模和通用性方面都受到限制,留下了一个关键的开放问题:通过大规模子图提取实现的高保真图像-文本对齐如何影响视觉语言模型的表征学习? 我们通过引入一个基于Transformer对象检测的可扩展子图提取管道解决了这一差距,该管道在由50万张复合图形组成的合成语料库上进行训练,并在ImageCLEF 2016和合成基准测试中取得了最先进的性能。 利用这个管道,我们发布了OPEN-PMC-18M,这是一个大规模高质量的生物医学视觉语言数据集,包含1800万个与临床相关的子图-标题对,涵盖放射学、显微镜和可见光摄影。 我们在精心策划的数据集上训练和评估了视觉语言模型,在检索、零样本分类和鲁棒性基准测试中表现出改进的性能,超过了现有的基线。 我们发布我们的数据集、模型和代码,以支持可重复的基准测试和进一步研究生物医学视觉语言建模和表征学习。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.