计算机科学 > 计算与语言
[提交于 2025年1月3日
]
标题: 在Med-BERT之上使用下一访问令牌预测头推进胰腺癌预测
标题: Advancing Pancreatic Cancer Prediction with a Next Visit Token Prediction Head on top of Med-BERT
摘要: 背景:最近,许多在大量数据上预训练的基础模型在使用电子健康记录(EHRs)进行疾病预测方面表现出有效性。然而,如何最好地利用这些模型,特别是在非常小的微调队列情况下,仍有一些未解答的问题。 方法:我们使用了Med-BERT,一个针对EHR的基础模型,并将疾病二分类预测任务重新构建为标记预测任务和下一个就诊掩码标记预测任务,以与Med-BERT的预训练任务格式对齐,从而在少量样本和完全监督设置中提高胰腺癌(PaCa)预测的准确性。 结果:将任务重新构建为标记预测任务,称为Med-BERT-Sum,在少量样本场景和较大数据样本中均表现出略微优越的性能。此外,将预测任务重新构建为下一个就诊掩码标记预测任务(Med-BERT-Mask)在少量样本场景中,数据量范围从10到500个样本时,显著优于传统的二分类(BC)预测任务(Med-BERT-BC),提升幅度为3%至7%。这些发现表明,将下游任务与Med-BERT的预训练目标对齐可以显著增强模型的预测能力,从而提高其预测罕见和常见疾病的效果。 结论:重新格式化疾病预测任务以与基础模型的预训练对齐可以提高预测准确性,从而实现早期检测和及时干预。这种方法可以提高胰腺癌及其他潜在癌症的治疗效果、生存率和总体患者预后。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.