定量生物学 > 基因组学
[提交于 2025年10月1日
]
标题: 基于GPT-2 XL和NVIDIA H100的癫痫基因组分析深度学习流水线
标题: A Deep Learning Pipeline for Epilepsy Genomic Analysis Using GPT-2 XL and NVIDIA H100
摘要: 癫痫是一种以反复发作的癫痫发作为特征的慢性神经系统疾病,全球患病人数估计达五千万人。 尽管高通量测序技术的进步使得对脑组织的广泛转录组分析成为可能,但这些高度复杂的数据显示解码仍然是一个挑战。 为解决这个问题,本文提出了一种新的分析流程,将深度学习策略与GPU加速计算相结合,以研究癫痫中的基因表达模式。 具体而言,我们提出的方法采用了GPT-2 XL,这是一种基于变压器的大型语言模型(LLM),具有15亿个参数,用于在基于Hopper架构的最新NVIDIA H100张量核心GPU上进行基因组序列分析。 我们提出的方法能够高效地预处理RNA序列数据、基因序列编码以及后续模式识别。 我们在两个癫痫数据集上进行了实验,包括GEO访问号GSE264537和GSE275235。 获得的结果揭示了几种显著的转录组变化,包括生酮饮食治疗后海马区星形胶质细胞增生的减少,以及斑马鱼癫痫模型中兴奋性-抑制性信号平衡的恢复。 此外,我们的结果突显了结合先进硬件加速器使用LLMs在神经疾病转录组表征中的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.