定量生物学 > 基因组学
[提交于 2016年8月5日
]
标题: Sam2bam:高性能的NGS数据预处理工具框架
标题: Sam2bam: High-Performance Framework for NGS Data Preprocessing Tools
摘要: 本文介绍了一种名为{\it sam2bam}的高吞吐量软件工具框架,该框架使用户能够显著加速下一代测序数据的预处理。 sam2bam 在单节点多核大内存系统上特别高效。 与事实上的标准工具相比,它可以在单节点系统上将标记重复读数的数据预处理运行时间减少 156-186 倍。 sam2bam 包含并行软件组件,可以充分利用多个处理器、可用内存、存储的高带宽以及可用的硬件压缩加速器。 sam2bam 提供了在知名基因组文件格式之间进行文件格式转换的基本功能,例如从 SAM 到 BAM。 {\it 插件}工具提供了诸如分析、过滤和转换输入数据等附加功能,例如重复标记,这些功能可以在运行时附加到 sam2bam 上。 我们证明了在使用最多 130 GB 内存的 16 核单节点系统上,sam2bam 可以将全外显子数据集的 NGS 数据预处理运行时间从大约两个小时减少到大约一分钟。 在使用最多 711 GB 内存的同一系统上,sam2bam 可以将全基因组测序数据的运行时间从大约 20 小时减少到大约九分钟。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.