定量生物学 > 基因组学
[提交于 2025年1月30日
]
标题: 基因优先排序的综述与大型语言模型的改进策略
标题: Survey and Improvement Strategies for Gene Prioritization with Large Language Models
摘要: 罕见疾病由于患者数据有限和遗传多样性而难以诊断。 尽管在变异优先排序方面取得了进展,但许多病例仍未被诊断。 虽然大型语言模型(LLMs)在医学考试中表现良好,但它们在诊断罕见遗传疾病方面的有效性尚未得到评估。 为了识别致病基因,我们对各种LLMs进行了基因优先排序的基准测试。 使用多代理和人类表型本体(HPO)分类,我们根据表型和可解性水平对患者进行分类。 随着基因集大小的增加,LLM性能下降,因此我们采用分而治之的策略将任务分解为较小的子集。 在基线情况下,GPT-4优于其他LLMs,在正确排名致病基因方面达到了近30%的准确率。 多代理和HPO方法有助于区分确定性解决的病例和具有挑战性的病例,突显了已知基因-表型关联和表型特异性的重要性。 我们发现,具有特定表型或明确关联的病例更容易被准确解决。 然而,我们观察到对研究较多的基因存在偏见以及输入顺序敏感性,这阻碍了基因优先排序。 我们的分而治之策略通过克服这些偏见提高了准确性。 通过利用HPO分类、新颖的多代理技术和我们的LLM策略,与我们的基线评估相比,我们提高了致病基因识别的准确性。 这种方法简化了罕见疾病的诊断,促进了未解决病例的重新分析,并加速了基因发现,支持了针对性诊断和治疗的发展。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.