计算机科学 > 分布式、并行与集群计算
[提交于 2025年1月29日
]
标题: MirLibSpark:用于多库功能注释的可扩展NGS植物微RNA预测流程
标题: MirLibSpark: A Scalable NGS Plant MicroRNA Prediction Pipeline for Multi-Library Functional Annotation
摘要: 下一代测序技术的出现极大地增加了转录组数据的规模。 尽管已经提出了许多用于新型微小RNA(miRNA)预测的独立算法和工作流程,但很少有针对处理来自大基因组的大规模序列数据而设计的,甚至更少的工具能够通过分析多个文库进一步注释功能性的miRNA。 我们提出了一种改进的管道,以实现高体积数据设施的处理,该管道基于Apache Spark框架实现了mirLibSpark。 该管道是目前最快的实际方法,并且与标准相比提供了准确性提升。 在本文中,我们提供了一个独立且完全自动化的分布式功能性miRNA预测器。 它是一个高效且准确的miRNA预测器,并具有功能洞察力。 此外,它符合植物miRNA预测的黄金标准要求。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.