Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > q-bio > arXiv:2507.07454v1

帮助 | 高级搜索

定量生物学 > 基因组学

arXiv:2507.07454v1 (q-bio)
[提交于 2025年7月10日 ]

标题: Mix-Geneformer:人类和小鼠单细胞RNA测序数据的统一表示学习

标题: Mix-Geneformer: Unified Representation Learning for Human and Mouse scRNA-seq Data

Authors:Yuki Nishio, Takayoshi Yamashita, Keita Ito, Tsubasa Hirakawa, Hironobu Fujiyoshi
摘要: 单细胞RNA测序(scRNA-seq)能够实现单细胞转录组分析,揭示细胞异质性和稀有群体。 最近的深度学习模型如Geneformer和Mouse-Geneformer在细胞类型分类和体外扰动等任务中表现良好。 然而,它们的物种特异性设计限制了跨物种泛化能力和转化应用,这对于推进转化研究和药物发现至关重要。 我们提出了Mix-Geneformer,一种基于Transformer的新模型,通过结合掩码语言建模(MLM)和基于SimCSE的对比损失的混合自监督方法,将人类和小鼠的scRNA-seq数据整合到统一表示中,以捕捉共享和物种特异性基因模式。 一种排名值编码方案进一步强调了训练过程中的高方差基因信号。 在来自不同人类和小鼠器官的大约5000万个细胞上进行训练,Mix-Geneformer在细胞类型分类和体外扰动任务中达到了或超过了最先进的基线模型,在小鼠肾脏数据上的准确率为95.8%,而最佳现有模型为94.9%。 它还成功识别了经体内研究验证的关键调控基因。 通过实现可扩展的跨物种转录组建模,Mix-Geneformer为比较转录组学和转化应用提供了一个强大的工具。 虽然我们的结果展示了出色的表现,但我们也承认存在一些局限性,例如计算成本和零样本迁移的变异性。
摘要: Single-cell RNA sequencing (scRNA-seq) enables single-cell transcriptomic profiling, revealing cellular heterogeneity and rare populations. Recent deep learning models like Geneformer and Mouse-Geneformer perform well on tasks such as cell-type classification and in silico perturbation. However, their species-specific design limits cross-species generalization and translational applications, which are crucial for advancing translational research and drug discovery. We present Mix-Geneformer, a novel Transformer-based model that integrates human and mouse scRNA-seq data into a unified representation via a hybrid self-supervised approach combining Masked Language Modeling (MLM) and SimCSE-based contrastive loss to capture both shared and species-specific gene patterns. A rank-value encoding scheme further emphasizes high-variance gene signals during training. Trained on about 50 million cells from diverse human and mouse organs, Mix-Geneformer matched or outperformed state-of-the-art baselines in cell-type classification and in silico perturbation tasks, achieving 95.8% accuracy on mouse kidney data versus 94.9% from the best existing model. It also successfully identified key regulatory genes validated by in vivo studies. By enabling scalable cross-species transcriptomic modeling, Mix-Geneformer offers a powerful tool for comparative transcriptomics and translational applications. While our results demonstrate strong performance, we also acknowledge limitations, such as the computational cost and variability in zero-shot transfer.
主题: 基因组学 (q-bio.GN)
引用方式: arXiv:2507.07454 [q-bio.GN]
  (或者 arXiv:2507.07454v1 [q-bio.GN] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.07454
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Yuki Nishio [查看电子邮件]
[v1] 星期四, 2025 年 7 月 10 日 06:15:17 UTC (685 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
q-bio.GN
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
q-bio

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号