定量生物学 > 定量方法
[提交于 2025年10月15日
]
标题: 口腔GPT:一种用于口腔黏膜疾病诊断和描述的两阶段视觉-语言模型
标题: OralGPT: A Two-Stage Vision-Language Model for Oral Mucosal Disease Diagnosis and Description
摘要: 口腔黏膜疾病如白斑、口腔扁平苔藓和复发性阿弗他溃疡表现出多样且重叠的视觉特征,使非专科医生的诊断变得具有挑战性。尽管视觉语言模型(VLMs)在医学图像解释方面显示出潜力,但由于缺乏大规模、良好标注的数据集,其在口腔健康领域的应用仍鲜有探索。在本工作中,我们提出了\textbf{口语GPT},第一个针对口腔黏膜疾病诊断和描述的领域特定两阶段视觉语言框架。在第一阶段,OralGPT从分类标签中学习视觉表示和与疾病相关的概念。在第二阶段,它通过使用长篇专家撰写的描述来增强其语言生成能力。为克服标注瓶颈,我们提出了一种新颖的相似性引导数据增强策略,将专家标注图像的描述性知识传播到弱标注图像上。我们还构建了第一个口腔黏膜疾病的基准数据集,整合了多源图像数据以及结构化和非结构化的文本注释。在四种常见的口腔疾病上的实验结果表明,OralGPT在实现具有竞争力的诊断性能的同时,还能生成流畅且具有临床意义的图像描述。本研究为口腔健康领域的语言辅助诊断工具提供了基础。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.