定量生物学 > 基因组学
[提交于 2025年7月16日
]
标题: RNAMunin:一种用于非编码RNA发现的深度机器学习模型
标题: RNAMunin: A Deep Machine Learning Model for Non-coding RNA Discovery
摘要: 微生物基因组的功能注释通常偏向于蛋白质编码基因,留下了大量未被探索的非编码RNA(ncRNAs),这些ncRNAs对于调节细菌和古菌的生理、应激反应和代谢至关重要。直接从基因组序列中识别ncRNAs是生物信息学和生物学中的一个关键挑战,这对于理解有机体的完整调控潜力至关重要。本文介绍了RNAMunin,这是一种机器学习(ML)模型,能够仅使用基因组序列来发现ncRNAs。它在处理大型序列数据集(如总长度达多个Gbp的长读宏基因组组装片段)时也具有计算可行性。RNAMunin是在从16个旧金山河口样本的约60 Gbp长读宏基因组中提取的Rfam序列上训练的。据我们所知,目前没有其他模型能够在如此大的规模上仅基于基因组序列检测ncRNAs。由于RNAMunin只需要基因组序列作为输入,因此我们不需要ncRNA被转录就可以找到它,即我们不需要转录组数据。我们以叙述风格撰写本文,以便最好地传达RNAMunin是如何开发以及如何详细工作的。与几乎所有当前的ML模型不同,RNAMunin大约有1M个参数,体积非常小且运行非常快。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.