Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > q-bio > arXiv:2507.11950

帮助 | 高级搜索

定量生物学 > 基因组学

arXiv:2507.11950 (q-bio)
[提交于 2025年7月16日 ]

标题: RNAMunin:一种用于非编码RNA发现的深度机器学习模型

标题: RNAMunin: A Deep Machine Learning Model for Non-coding RNA Discovery

Authors:Lauren Lui, Torben Nielsen
摘要: 微生物基因组的功能注释通常偏向于蛋白质编码基因,留下了大量未被探索的非编码RNA(ncRNAs),这些ncRNAs对于调节细菌和古菌的生理、应激反应和代谢至关重要。直接从基因组序列中识别ncRNAs是生物信息学和生物学中的一个关键挑战,这对于理解有机体的完整调控潜力至关重要。本文介绍了RNAMunin,这是一种机器学习(ML)模型,能够仅使用基因组序列来发现ncRNAs。它在处理大型序列数据集(如总长度达多个Gbp的长读宏基因组组装片段)时也具有计算可行性。RNAMunin是在从16个旧金山河口样本的约60 Gbp长读宏基因组中提取的Rfam序列上训练的。据我们所知,目前没有其他模型能够在如此大的规模上仅基于基因组序列检测ncRNAs。由于RNAMunin只需要基因组序列作为输入,因此我们不需要ncRNA被转录就可以找到它,即我们不需要转录组数据。我们以叙述风格撰写本文,以便最好地传达RNAMunin是如何开发以及如何详细工作的。与几乎所有当前的ML模型不同,RNAMunin大约有1M个参数,体积非常小且运行非常快。
摘要: Functional annotation of microbial genomes is often biased toward protein-coding genes, leaving a vast, unexplored landscape of non-coding RNAs (ncRNAs) that are critical for regulating bacterial and archaeal physiology, stress response and metabolism. Identifying ncRNAs directly from genomic sequence is a paramount challenge in bioinformatics and biology, essential for understanding the complete regulatory potential of an organism. This paper presents RNAMunin, a machine learning (ML) model that is capable of finding ncRNAs using genomic sequence alone. It is also computationally viable for large sequence datasets such as long read metagenomic assemblies with contigs totaling multiple Gbp. RNAMunin is trained on Rfam sequences extracted from approximately 60 Gbp of long read metagenomes from 16 San Francisco Estuary samples. We know of no other model that can detect ncRNAs based solely on genomic sequence at this scale. Since RNAMunin only requires genomic sequence as input, we do not need for an ncRNA to be transcribed to find it, i.e., we do not need transcriptomics data. We wrote this manuscript in a narrative style in order to best convey how RNAMunin was developed and how it works in detail. Unlike almost all current ML models, at approximately 1M parameters, RNAMunin is very small and very fast.
主题: 基因组学 (q-bio.GN) ; 机器学习 (cs.LG)
引用方式: arXiv:2507.11950 [q-bio.GN]
  (或者 arXiv:2507.11950v1 [q-bio.GN] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.11950
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Torben Nielsen [查看电子邮件]
[v1] 星期三, 2025 年 7 月 16 日 06:33:50 UTC (527 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • 其他格式
许可图标 查看许可
当前浏览上下文:
q-bio.GN
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.LG
q-bio

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号