Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2507.12669

帮助 | 高级搜索

电气工程与系统科学 > 图像与视频处理

arXiv:2507.12669 (eess)
[提交于 2025年7月16日 ]

标题: InSight:使用多模态融合的AI移动筛查工具用于多种眼病检测

标题: InSight: AI Mobile Screening Tool for Multiple Eye Disease Detection using Multimodal Fusion

Authors:Ananya Raghu, Anisha Raghu, Alice S. Tang, Yannis M. Paulus, Tyson N. Kim, Tomiko T. Oskotsky
摘要: 背景/目的:年龄相关性黄斑变性、青光眼、糖尿病视网膜病变(DR)、糖尿病黄斑水肿和病理性近视影响着全球数亿人。 这些疾病的早期筛查至关重要,但在低收入和中等收入国家以及资源有限的环境中,医疗保健的可及性仍然有限。 我们开发了InSight,这是一个基于人工智能的应用程序,结合患者元数据和眼底图像,以准确诊断五种常见的眼部疾病,从而提高筛查的可及性。 方法:InSight具有三阶段流程:实时图像质量评估、疾病诊断模型和一个用于评估严重程度的DR分级模型。 我们的疾病诊断模型包含三项关键创新:(a) 结合临床元数据和图像的多模态融合技术(MetaFusion);(b) 利用监督和自监督损失函数的预训练方法;以及(c) 多任务模型,可以同时预测5种疾病。 我们使用了BRSET(实验室捕获的图像)和mBRSET(智能手机捕获的图像)数据集,这两个数据集也包含用于模型训练/评估的临床元数据。 结果:在BRSET和mBRSET图像数据集上进行训练,图像质量检查器在过滤低质量眼底图像方面达到了近100%的准确率。 多模态预训练疾病诊断模型在BRSET上的平衡准确率比仅使用图像的模型高出6%,在mBRSET上高出4%。 结论:InSight流程在各种图像条件下表现出稳健性,并且在所有五种疾病中都具有高诊断准确性,能够推广到智能手机和实验室捕获的图像。 多任务模型有助于流程的轻量化,使其计算效率是对应每种疾病的五个独立模型的五倍。
摘要: Background/Objectives: Age-related macular degeneration, glaucoma, diabetic retinopathy (DR), diabetic macular edema, and pathological myopia affect hundreds of millions of people worldwide. Early screening for these diseases is essential, yet access to medical care remains limited in low- and middle-income countries as well as in resource-limited settings. We develop InSight, an AI-based app that combines patient metadata with fundus images for accurate diagnosis of five common eye diseases to improve accessibility of screenings. Methods: InSight features a three-stage pipeline: real-time image quality assessment, disease diagnosis model, and a DR grading model to assess severity. Our disease diagnosis model incorporates three key innovations: (a) Multimodal fusion technique (MetaFusion) combining clinical metadata and images; (b) Pretraining method leveraging supervised and self-supervised loss functions; and (c) Multitask model to simultaneously predict 5 diseases. We make use of BRSET (lab-captured images) and mBRSET (smartphone-captured images) datasets, both of which also contain clinical metadata for model training/evaluation. Results: Trained on a dataset of BRSET and mBRSET images, the image quality checker achieves near-100% accuracy in filtering out low-quality fundus images. The multimodal pretrained disease diagnosis model outperforms models using only images by 6% in balanced accuracy for BRSET and 4% for mBRSET. Conclusions: The InSight pipeline demonstrates robustness across varied image conditions and has high diagnostic accuracy across all five diseases, generalizing to both smartphone and lab captured images. The multitask model contributes to the lightweight nature of the pipeline, making it five times computationally efficient compared to having five individual models corresponding to each disease.
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI); 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2507.12669 [eess.IV]
  (或者 arXiv:2507.12669v1 [eess.IV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.12669
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Tomiko Oskotsky [查看电子邮件]
[v1] 星期三, 2025 年 7 月 16 日 23:00:10 UTC (1,386 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • 其他格式
许可图标 查看许可
当前浏览上下文:
eess.IV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.AI
cs.CV
eess

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号