定量生物学 > 定量方法
[提交于 2025年5月28日
]
标题: 通过无放回采样和随机投影进行特征选择以改进统计学习方法
标题: Improving statistical learning methods via features selection without replacement sampling and random projection
摘要: 癌症本质上是一种遗传性疾病,其特征是基因和表观遗传改变扰乱了正常基因的表达,导致细胞不受控制地生长和转移。 由于“小样本数量,大特征维度”问题,高维微阵列数据集给分类模型带来了挑战,导致过拟合现象的发生。 本研究做出了三个不同的关键贡献:1)我们提出了一种基于机器学习的方法,结合了无重置特征选择(FSWOR)技术和投影方法以提高分类准确性;2)我们应用Kendall统计检验从脑癌微阵列数据集(GSE50161)中识别出最显著的基因,将特征空间从54,675个基因减少到20,890个基因;3)我们使用k折交叉验证技术应用机器学习模型,其中我们的模型结合了集成分类器、线性判别分析(LDA)投影和朴素贝叶斯算法,取得了96%的测试分数,比现有方法提高了9.09%。 结果证明了我们方法在高维基因表达分析中的有效性,提高了分类准确性同时缓解了过拟合问题。 本研究有助于癌症生物标志物的发现,提供了一种用于分析微阵列数据的强大计算方法。
当前浏览上下文:
q-bio.QM
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.