Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > q-bio > arXiv:2501.04258

帮助 | 高级搜索

定量生物学 > 生物大分子

arXiv:2501.04258 (q-bio)
[提交于 2025年1月8日 ]

标题: RNA类似基序的宇宙有多大? 使用拓扑描述符对RNA图基序进行聚类分析

标题: How Large is the Universe of RNA-Like Motifs? A Clustering Analysis of RNA Graph Motifs Using Topological Descriptors

Authors:Rui Wang, Tamar Schlick
摘要: 我们引入了一种基于计算拓扑的方法,结合无监督机器学习算法,以估计RNA类似图拓扑的数据库大小和内容。 具体来说,我们应用图论枚举法生成顶点数从2到9的所有110,667个可能的二维对偶图。 其中,只有0.11%的图通过RNA-as-Graphs(RAG)映射方法对应大约200,000个已知的RNA原子片段(收集于2021年)。 其余的99.89%的对偶图可能是RNA类似或非RNA类似。 为了确定这99.89%假设集中的哪些对偶图更可能与RNA结构相关,我们应用计算拓扑描述符,使用持久谱图(PSG)方法,通过19个基于PSG的特征来表征每个图,并使用聚类算法将所有可能的对偶图分为两个簇,RNA类似簇和非RNA类似簇。 每个对偶图到RNA类似簇中心的距离代表其属于RNA结构的可能性。 从验证结果来看,我们的基于PSG的RNA类似簇包括了121个已知RNA对偶图的97.3%,表明性能良好。 此外,46.017%的假设RNA被预测为RNA类似。 显著的是,我们观察到所有前15个RNA类似对偶图可以被分成多个子图,而前15个非RNA类似对偶图则倾向于没有任何子图。 此外,在比较它们的拓扑特征时,顶级RNA类似和非RNA类似图之间存在显著的拓扑差异。 这些发现为RNA基序宇宙的大小和RNA设计策略提供了有价值的见解,为预测RNA图拓扑提供了一个新的框架,并指导新型RNA基序的发现,也许通过子图组装发现抗病毒治疗药物。
摘要: We introduce a computational topology-based approach with unsupervised machine-learning algorithms to estimate the database size and content of RNA-like graph topologies. Specifically, we apply graph theory enumeration to generate all 110,667 possible 2D dual graphs for vertex numbers ranging from 2 to 9. Among them, only 0.11% graphs correspond to approximately 200,000 known RNA atomic fragments (collected in 2021) using the RNA-as-Graphs (RAG) mapping method. The remaining 99.89% of the dual graphs may be RNA-like or non-RNA-like. To determine which dual graphs in the 99.89% hypothetical set are more likely to be associated with RNA structures, we apply computational topology descriptors using the Persistent Spectral Graphs (PSG) method to characterize each graph using 19 PSG-based features and use clustering algorithms that partition all possible dual graphs into two clusters, RNA-like cluster and non-RNA-like cluster. The distance of each dual graph to the center of the RNA-like cluster represents the likelihood of it belonging to RNA structures. From validation, our PSG-based RNA-like cluster includes 97.3% of the 121 known RNA dual graphs, suggesting good performance. Furthermore, 46.017% of the hypothetical RNAs are predicted to be RNA-like. Significantly, we observe that all the top 15 RNA-like dual graphs can be separated into multiple subgraphs, whereas the top 15 non-RNA-like dual graphs tend not to have any subgraphs. Moreover, a significant topological difference between top RNA-like and non-RNA-like graphs is evident when comparing their topological features. These findings provide valuable insights into the size of the RNA motif universe and RNA design strategies, offering a novel framework for predicting RNA graph topologies and guiding the discovery of novel RNA motifs, perhaps anti-viral therapeutics by subgraph assembly.
主题: 生物大分子 (q-bio.BM)
引用方式: arXiv:2501.04258 [q-bio.BM]
  (或者 arXiv:2501.04258v1 [q-bio.BM] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.04258
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Rui Wang [查看电子邮件]
[v1] 星期三, 2025 年 1 月 8 日 03:49:50 UTC (10,692 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
q-bio.BM
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
q-bio

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号