计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月23日
]
标题: MedTVT-R1:一种增强医学推理和诊断的多模态大语言模型
标题: MedTVT-R1: A Multimodal LLM Empowering Medical Reasoning and Diagnosis
摘要: 准确且可解释的多疾病诊断仍然是医学研究中的一个关键挑战,尤其是在利用异构多模态医学数据时。 当前的方法通常依赖于单模态数据,限制了其全面理解复杂疾病的能力。 为了解决这个问题,我们提出了MedTVT-R1,一种新颖的多模态大语言模型(MLLM)框架,旨在整合临床多模态数据进行推理和诊断多种疾病。 我们构建了MedTVT-QA,一个经过筛选的指令数据集,通过证据链方法提供生理水平的解释和疾病水平的诊断的问题-答案对。 MedTVT-R1包含一个模态感知层,以捕捉模态间的依赖关系并自适应地加权模态贡献。 此外,我们采用基于组相对策略优化(GRPO)的强化学习微调,并使用Jaccard奖励函数来增强诊断推理。 实验结果表明,MedTVT-R1在多模态特征利用和多疾病诊断方面表现出优越性,为临床应用(如诊断报告生成和共病推理)提供了重要潜力。 数据集和代码可在https://github.com/keke-nice/MedTVT-R1获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.