定量生物学 > 定量方法
[提交于 2025年1月24日
]
标题: 归一化和选择非差异表达基因可改善跨平台转录组数据的机器学习建模
标题: Normalization and selecting non-differentially expressed genes improve machine learning modelling of cross-platform transcriptomic data
摘要: 归一化是生物过程定量分析中的关键步骤。近期研究表明,跨平台整合与归一化能够使机器学习(ML)在RNA微阵列和RNA测序数据上的训练成为可能,但他们的研究中没有使用独立的数据集。因此,如何提高独立的RNA微阵列和RNA测序数据集上ML建模性能尚不清楚。受到实验生物学中常用的管家基因的启发,本研究检验了这样一个假设:非差异表达基因(NDEG)可能改善转录组数据的归一化,并随后提高ML模型的跨平台建模性能。使用TCGA乳腺癌的微阵列和RNA测序数据分别作为独立的训练和测试数据集,以分类乳腺癌的分子亚型。根据方差分析(ANOVA)的结果,选择NDEG(p>0.85)和差异表达基因(DEG,p<0.05),分别用于后续的数据归一化和分类。基于一个平台数据训练的模型被用于测试另一个平台。我们的数据显示,NDEG和DEG基因的选择可以有效地提高模型的分类性能。基于参数统计分析的归一化方法劣于基于非参数统计的方法。在这项研究中,LOG_QN和LOG_QNZ归一化方法与神经网络分类模型结合似乎表现出更好的性能。因此,基于NDEG的归一化似乎对完全独立数据集上的跨平台测试有用。然而,需要更多的研究来检验基于NDEG的归一化是否能提高其他数据集和其他组学数据类型的ML分类性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.