计算机科学 > 机器学习
[提交于 2025年7月14日
]
标题: 面向将大型语言模型应用于补充单细胞基础模型
标题: Towards Applying Large Language Models to Complement Single-Cell Foundation Models
摘要: 单细胞基础模型,如scGPT,在单细胞组学领域代表了重大进展,能够实现各种下游生物任务的最先进性能。 然而,这些模型本质上存在局限性,因为生物学中存在大量信息以文本形式存在,而它们无法利用这些信息。 因此,最近有几项研究提出了使用大语言模型(LLMs)作为单细胞基础模型的替代方案,并取得了具有竞争力的结果。 然而,对于驱动这种性能的因素缺乏深入了解,同时对使用LLMs作为替代方法而非与单细胞基础模型互补的方法存在强烈关注。 因此,在本研究中,我们探讨了当应用于单细胞数据时,哪些生物见解有助于大语言模型的性能,并引入了scMPT;一个利用scGPT和从捕捉这些见解的LLMs中获得的单细胞表示之间协同效应的模型。 scMPT的表现比其任一组件模型都更强且更一致,而这些组件模型在不同数据集上经常存在较大的性能差距。 我们还尝试了其他融合方法,证明了将专业推理模型与scGPT结合以提高性能的潜力。 本研究最终展示了大语言模型在补充单细胞基础模型并推动单细胞分析改进方面的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.