电气工程与系统科学 > 图像与视频处理
[提交于 2025年7月24日
]
标题: DiagR1:通过强化学习训练的用于消化道病理诊断的视觉-语言模型
标题: DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis
摘要: 多模态大模型在自动化病理图像分析方面显示出巨大的潜力。 然而,当前用于胃肠道病理的多模态模型受到数据质量和推理透明度的双重限制:公共数据集中普遍存在的噪声和不完整的注释会导致视觉语言模型在生成诊断文本时出现事实性幻觉,而缺乏明确的中间推理链使得输出难以审核,因此在临床实践中可信度较低。 为了解决这些问题,我们构建了一个包含显微描述和诊断结论的大规模胃肠道病理数据集,并提出了一种提示论证策略,该策略结合了病变分类和解剖部位信息。 这种设计引导模型更好地捕捉图像特定特征并保持生成过程中的语义一致性。 此外,我们采用了一个后训练流程,结合监督微调与组相对策略优化(GRPO)来提高推理质量和输出结构。 在真实世界病理报告生成任务上的实验结果表明,我们的方法在生成质量、结构完整性和临床相关性方面显著优于最先进的开源和专有基线模型。 我们的解决方案在临床相关性上比最先进的模型高18.7%,结构完整性提高了32.4%,诊断错误减少了41.2%,与现有解决方案相比,表现出更高的准确性和临床实用性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.