电气工程与系统科学 > 图像与视频处理
[提交于 2025年7月15日
]
标题: 视觉基础模型是否已准备好用于即插即用的医学图像配准?
标题: Are Vision Foundation Models Ready for Out-of-the-Box Medical Image Registration?
摘要: 基础模型在大型图像数据集上进行预训练,能够捕捉丰富的特征表示,最近显示出在零样本图像配准中的潜力。 然而,它们的性能主要是在刚性或结构不那么复杂的背景下进行测试,例如大脑或腹部器官,尚不清楚这些模型是否能够处理更具挑战性的可变形解剖结构。 乳腺MRI配准特别困难,因为患者之间的解剖结构差异显著,患者体位引起的变形,以及纤维腺体组织的薄而复杂的内部结构的存在,其中准确对齐至关重要。 基于基础模型的配准算法能否处理这种复杂程度仍然是一个开放性问题。 在本研究中,我们对基于基础模型的乳腺MRI配准算法进行了全面评估。 我们在四个关键的乳腺配准任务中评估了五个预训练编码器,包括DINO-v2、SAM、MedSAM、SSLSAM和MedCLIP,这些任务涵盖了不同年份和日期、序列、模态以及患者疾病状态(病灶与无病灶)的变化。 我们的结果表明,像SAM这样的基于基础模型的算法在整体乳腺对齐方面优于传统的配准基线,尤其是在大的领域转移下,但在捕捉纤维腺体组织的细节方面存在困难。 有趣的是,在MedSAM和SSLSAM上进行医学或乳腺特异性图像的额外预训练或微调,并没有提高配准性能,甚至在某些情况下还会降低性能。 需要进一步的工作来理解领域特定训练如何影响配准,并探索能同时提高全局对齐和细结构精度的目标策略。 我们还在\href{https://github.com/mazurowski-lab/Foundation-based-reg}{Github}公开发布了我们的代码。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.