电气工程与系统科学 > 图像与视频处理
[提交于 2025年6月29日
(v1)
,最后修订 2025年7月6日 (此版本, v2)]
标题: CRISP-SAM2:用于多器官分割的具有跨模态交互和语义提示的SAM2
标题: CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation
摘要: 多器官医学分割是医学图像处理中的关键组成部分,对于医生做出准确诊断和制定有效的治疗计划至关重要。 尽管在这一领域取得了显著进展,但当前的多器官分割模型往往存在细节不准确、依赖几何提示和空间信息丢失的问题。 为解决这些挑战,我们引入了一个名为CRISP-SAM2的新模型,该模型基于SAM2的CRoss-modal交互和语义提示。 该模型代表了一种通过器官文本描述引导的多器官医学分割有前途的方法。 我们的方法首先通过逐步的跨模态注意力交互机制,将视觉和文本输入转换为跨模态上下文语义。 然后将这些语义注入图像编码器,以增强对视觉信息的详细理解。 为了消除对几何提示的依赖,我们使用了语义提示策略,替换原始提示编码器以增强对困难目标的感知。 此外,应用了一种用于记忆的相似性排序自我更新策略和掩码精炼过程,以进一步适应医学成像并增强局部细节。 在七个公共数据集上进行的比较实验表明,CRISP-SAM2优于现有模型。 广泛的分析也证明了我们方法的有效性,从而确认了其优越的性能,尤其是在解决前述限制方面。 我们的代码可在以下地址获取:https://github.com/YU-deep/CRISP_SAM2.git.
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.