定量生物学 > 基因组学
[提交于 2025年1月3日
]
标题: METAGENE-1:用于疫情监测的宏基因组基础模型
标题: METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring
摘要: 我们预训练了METAGENE-1,这是一个70亿参数的自回归变压器模型,我们将其称为元基因组基础模型,在一个由多样化元基因组DNA和RNA序列组成的新型语料库上进行预训练,该语料库包含超过1.5万亿个碱基对。 该数据集来源于大量人类污水样本,使用深度元基因组(下一代)测序方法进行处理和测序。 与专注于单个基因组或特定物种的定制集合的基因组模型不同,METAGENE-1的目标是捕捉这种污水中存在基因组信息的完整分布,以帮助与大流行监测和病原体检测相关的任务。 我们在数据集上进行字节对编码(BPE)分词,专门针对元基因组序列,然后进行模型预训练。 在本文中,我们首先详细介绍了预训练数据集、分词策略和模型架构,强调了使元基因组数据有效建模的考虑因素和设计选择。 然后,我们展示了在我们的元基因组数据集上预训练该模型的结果,提供了关于损失函数、系统指标以及预训练过程中训练稳定性的详细信息。 最后,我们展示了METAGENE-1的性能,它在一组基因组基准测试和新的专注于人源病原体检测和基因组序列嵌入的评估中取得了最先进的结果,展示了其在大流行监测、生物监视和新兴健康威胁早期检测方面的公共卫生应用潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.