定量生物学 > 基因组学
[提交于 2025年7月10日
]
标题: Mix-Geneformer:人类和小鼠单细胞RNA测序数据的统一表示学习
标题: Mix-Geneformer: Unified Representation Learning for Human and Mouse scRNA-seq Data
摘要: 单细胞RNA测序(scRNA-seq)能够实现单细胞转录组分析,揭示细胞异质性和稀有群体。 最近的深度学习模型如Geneformer和Mouse-Geneformer在细胞类型分类和体外扰动等任务中表现良好。 然而,它们的物种特异性设计限制了跨物种泛化能力和转化应用,这对于推进转化研究和药物发现至关重要。 我们提出了Mix-Geneformer,一种基于Transformer的新模型,通过结合掩码语言建模(MLM)和基于SimCSE的对比损失的混合自监督方法,将人类和小鼠的scRNA-seq数据整合到统一表示中,以捕捉共享和物种特异性基因模式。 一种排名值编码方案进一步强调了训练过程中的高方差基因信号。 在来自不同人类和小鼠器官的大约5000万个细胞上进行训练,Mix-Geneformer在细胞类型分类和体外扰动任务中达到了或超过了最先进的基线模型,在小鼠肾脏数据上的准确率为95.8%,而最佳现有模型为94.9%。 它还成功识别了经体内研究验证的关键调控基因。 通过实现可扩展的跨物种转录组建模,Mix-Geneformer为比较转录组学和转化应用提供了一个强大的工具。 虽然我们的结果展示了出色的表现,但我们也承认存在一些局限性,例如计算成本和零样本迁移的变异性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.