电气工程与系统科学 > 图像与视频处理
[提交于 2025年7月17日
]
标题: 像素完美 MegaMed:生成高分辨率医学图像的百万像素级视觉-语言基础模型
标题: Pixel Perfect MegaMed: A Megapixel-Scale Vision-Language Foundation Model for Generating High Resolution Medical Images
摘要: 医学图像合成由于临床环境中固有的复杂性和高分辨率细节要求而面临独特的挑战。 传统的生成架构,如生成对抗网络(GANs)或变分自编码器(VAEs),在高分辨率图像生成方面表现出巨大的潜力,但在保留对准确诊断至关重要的细粒度细节方面存在困难。 为了解决这个问题,我们引入了Pixel Perfect MegaMed,这是第一个能够以1024x1024分辨率合成图像的视觉-语言基础模型。 我们的方法部署了一个多尺度Transformer架构,专门设计用于超高清医学图像生成,从而实现了全局解剖上下文和局部图像级细节的保留。 通过利用针对医学术语和成像模式定制的视觉-语言对齐技术,Pixel Perfect MegaMed在前所未有的分辨率水平上弥合了文本描述与视觉表示之间的差距。 我们将该模型应用于CheXpert数据集,并展示了其从文本提示生成临床真实胸片的能力。 除了视觉质量外,这些高分辨率合成图像在下游任务中也证明是有价值的,当用于数据增强时,特别是在数据量较少的情况下,显示出可衡量的性能提升。 我们的代码可通过项目网站获取 - https://tehraninasab.github.io/pixelperfect-megamed.
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.