电气工程与系统科学 > 图像与视频处理
[提交于 2025年6月29日
]
标题: MedRegion-CT:面向区域的多模态大语言模型用于全面的3D CT报告生成
标题: MedRegion-CT: Region-Focused Multimodal LLM for Comprehensive 3D CT Report Generation
摘要: 最近发布的RadGenome-Chest CT显著推进了基于CT的报告生成。 然而,现有方法主要关注全局特征,难以捕捉区域特定细节,这可能导致某些异常被忽视。 为了解决这个问题,我们提出了 MedRegion-CT,一种以区域为中心的多模态大语言模型(MLLM)框架,具有三个关键创新。 首先,我们引入了区域 代表性($R^2$)标记池化,该方法利用一个二维预训练视觉模型来高效提取三维CT特征。 这种方法生成代表整体切片特征的全局标记和突出目标区域的区域标记,使MLLM能够有效处理全面信息。 其次,一个通用分割模型生成伪掩码,然后由掩码编码器处理以提取以区域为中心的特征。 这使得MLLM能够专注于临床相关的区域,使用六个预定义的区域掩码。 第三,我们利用分割结果提取患者特定的属性,包括器官大小、直径和位置。 这些被转换成文本提示,丰富了 MLLM对患者特定背景的理解。 为了确保严格的评估,我们在RadGenome-Chest CT上进行了报告生成的基准实验。MedRegion-CT达到了最先进的性能,在自然语言生成质量和临床相关性方面优于现有方法,同时保持了可解释性。 我们框架的代码是公开的。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.