电气工程与系统科学 > 图像与视频处理
[提交于 2025年7月16日
]
标题: InSight:使用多模态融合的AI移动筛查工具用于多种眼病检测
标题: InSight: AI Mobile Screening Tool for Multiple Eye Disease Detection using Multimodal Fusion
摘要: 背景/目的:年龄相关性黄斑变性、青光眼、糖尿病视网膜病变(DR)、糖尿病黄斑水肿和病理性近视影响着全球数亿人。 这些疾病的早期筛查至关重要,但在低收入和中等收入国家以及资源有限的环境中,医疗保健的可及性仍然有限。 我们开发了InSight,这是一个基于人工智能的应用程序,结合患者元数据和眼底图像,以准确诊断五种常见的眼部疾病,从而提高筛查的可及性。 方法:InSight具有三阶段流程:实时图像质量评估、疾病诊断模型和一个用于评估严重程度的DR分级模型。 我们的疾病诊断模型包含三项关键创新:(a) 结合临床元数据和图像的多模态融合技术(MetaFusion);(b) 利用监督和自监督损失函数的预训练方法;以及(c) 多任务模型,可以同时预测5种疾病。 我们使用了BRSET(实验室捕获的图像)和mBRSET(智能手机捕获的图像)数据集,这两个数据集也包含用于模型训练/评估的临床元数据。 结果:在BRSET和mBRSET图像数据集上进行训练,图像质量检查器在过滤低质量眼底图像方面达到了近100%的准确率。 多模态预训练疾病诊断模型在BRSET上的平衡准确率比仅使用图像的模型高出6%,在mBRSET上高出4%。 结论:InSight流程在各种图像条件下表现出稳健性,并且在所有五种疾病中都具有高诊断准确性,能够推广到智能手机和实验室捕获的图像。 多任务模型有助于流程的轻量化,使其计算效率是对应每种疾病的五个独立模型的五倍。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.