计算机科学 > 机器学习
[提交于 2025年6月30日
(v1)
,最后修订 2025年7月2日 (此版本, v2)]
标题: $μ^2$分词器:用于放射学报告生成的可微分多尺度多模态分词器
标题: $μ^2$Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation
摘要: 自动化放射学报告生成(RRG)旨在从临床影像(如计算机断层扫描(CT)扫描)生成详细的文本报告,以提高诊断的准确性和效率以及管理建议的提供。 RRG受到两个关键挑战的困扰:(1)在资源有限的情况下从影像数据中提取相关信息的固有复杂性,以及(2)客观评估模型生成报告与专家撰写报告之间差异的困难。 为了解决这些挑战,我们提出了$\mu^2$LLM,一种$\underline{\textbf{mu}}$ltiscale$\underline{\textbf{mu}}$ltimodal 大型语言模型用于RRG任务。 新颖的${\mu}^2$分词器作为中间层,整合了多尺度视觉分词器和文本分词器的多模态特征,然后通过直接偏好优化(DPO)提高报告生成质量,由GREEN-RedLlama指导。 在四个大型CT图像-报告医学数据集上的实验结果表明,我们的方法优于现有方法,突显了我们在有限数据上微调的$\mu^2$LLM在RRG任务中的潜力。 同时,对于提示工程,我们引入了一个五阶段、LLM驱动的流程,将常规CT报告转换为成对的视觉-问题-答案三元组和引用链接的推理叙述,为可解释的多模态放射学LLM创建一个可扩展的高质量监督语料库。 所有代码、数据集和模型将在我们的官方仓库中公开。 https://github.com/Siyou-Li/u2Tokenizer
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.