计算机科学 > 计算机视觉与模式识别
[提交于 2025年5月31日
]
标题: 通过对比视觉语言预训练的3D潜在扩散模型进行文本到CT生成
标题: Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining
摘要: 目标:虽然近期在文本条件生成模型方面的进展已经实现了逼真的医学图像合成,但这些进步主要局限于二维成像模态(如胸部X光片)。将文本到图像的生成扩展到体积计算断层扫描(CT)仍然是一项重大挑战,因为三维医学成像具有高维度性、解剖复杂性,并且缺乏能够对齐视觉语言数据的稳健框架。 方法:我们提出了一种用于文本到CT生成的新架构,结合了潜在扩散模型和三维对比视觉语言预训练方案。我们的方法利用双编码器CLIP风格模型(该模型基于配对的CT体积和放射学报告进行训练),以建立共享嵌入空间,作为生成的条件输入。通过预训练的体积VAE,CT体积被压缩到低维潜在空间,从而实现高效的三维去噪扩散,无需外部超分辨率阶段。 结果:我们在CT-RATE数据集上评估了我们的方法,并对图像保真度、临床相关性和语义对齐进行了全面评估。我们的模型在所有任务中都表现出竞争性能,显著优于先前的文本到CT生成基线。此外,我们证明了由我们的框架合成的CT扫描可以有效增强真实数据,提高下游诊断性能。 结论:我们的研究表明,特定模态的视觉语言对齐是高质量三维医学图像生成的关键组成部分。通过整合对比预训练和体积扩散,我们的方法提供了一种可扩展且可控的解决方案,可以从文本中合成具有临床意义的CT体积,为数据增强、医学教育和自动化临床模拟开辟了新的应用领域。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.