Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.10039

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2507.10039 (cs)
[提交于 2025年7月14日 ]

标题: 面向将大型语言模型应用于补充单细胞基础模型

标题: Towards Applying Large Language Models to Complement Single-Cell Foundation Models

Authors:Steven Palayew, Bo Wang, Gary Bader
摘要: 单细胞基础模型,如scGPT,在单细胞组学领域代表了重大进展,能够实现各种下游生物任务的最先进性能。 然而,这些模型本质上存在局限性,因为生物学中存在大量信息以文本形式存在,而它们无法利用这些信息。 因此,最近有几项研究提出了使用大语言模型(LLMs)作为单细胞基础模型的替代方案,并取得了具有竞争力的结果。 然而,对于驱动这种性能的因素缺乏深入了解,同时对使用LLMs作为替代方法而非与单细胞基础模型互补的方法存在强烈关注。 因此,在本研究中,我们探讨了当应用于单细胞数据时,哪些生物见解有助于大语言模型的性能,并引入了scMPT;一个利用scGPT和从捕捉这些见解的LLMs中获得的单细胞表示之间协同效应的模型。 scMPT的表现比其任一组件模型都更强且更一致,而这些组件模型在不同数据集上经常存在较大的性能差距。 我们还尝试了其他融合方法,证明了将专业推理模型与scGPT结合以提高性能的潜力。 本研究最终展示了大语言模型在补充单细胞基础模型并推动单细胞分析改进方面的潜力。
摘要: Single-cell foundation models such as scGPT represent a significant advancement in single-cell omics, with an ability to achieve state-of-the-art performance on various downstream biological tasks. However, these models are inherently limited in that a vast amount of information in biology exists as text, which they are unable to leverage. There have therefore been several recent works that propose the use of LLMs as an alternative to single-cell foundation models, achieving competitive results. However, there is little understanding of what factors drive this performance, along with a strong focus on using LLMs as an alternative, rather than complementary approach to single-cell foundation models. In this study, we therefore investigate what biological insights contribute toward the performance of LLMs when applied to single-cell data, and introduce scMPT; a model which leverages synergies between scGPT, and single-cell representations from LLMs that capture these insights. scMPT demonstrates stronger, more consistent performance than either of its component models, which frequently have large performance gaps between each other across datasets. We also experiment with alternate fusion methods, demonstrating the potential of combining specialized reasoning models with scGPT to improve performance. This study ultimately showcases the potential for LLMs to complement single-cell foundation models and drive improvements in single-cell analysis.
主题: 机器学习 (cs.LG) ; 基因组学 (q-bio.GN)
引用方式: arXiv:2507.10039 [cs.LG]
  (或者 arXiv:2507.10039v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.10039
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Steven Palayew [查看电子邮件]
[v1] 星期一, 2025 年 7 月 14 日 08:16:58 UTC (476 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
q-bio
q-bio.GN

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号