计算机科学 > 人工智能
[提交于 2025年8月4日
]
标题: 放射学视觉问答中的复杂推理多智能体系统
标题: A Multi-Agent System for Complex Reasoning in Radiology Visual Question Answering
摘要: 放射科视觉问答(RVQA)能够对胸部X光图像提出的问题提供精确答案,减轻放射科医生的工作负担。 尽管基于多模态大语言模型(MLLMs)和检索增强生成(RAG)的最新方法在RVQA中表现出有前景的进展,但它们在事实准确性、幻觉和跨模态不对齐方面仍面临挑战。 我们引入了一个多智能体系统(MAS),旨在支持RVQA中的复杂推理,包括专门用于上下文理解、多模态推理和答案验证的智能体。 我们在一个通过模型分歧过滤整理的具有挑战性的RVQA数据集上评估了我们的系统,该数据集包含多个MLLMs中持续困难的案例。 大量实验表明,我们的系统在强MLLM基线之上表现出优越性和有效性,案例研究展示了其可靠性和可解释性。 这项工作突显了多智能体方法在支持需要复杂推理的可解释和值得信赖的临床AI应用方面的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.