RECKONER: Read Error Corrector Based on KMC

Dlugosz, Maciej; Deorowicz, Sebastian

doi:10.1093/bioinformatics/btw746

定量生物学 > 基因组学

arXiv:1602.03086 (q-bio)

[提交于 2016年2月9日 ]

标题： RECKONER：基于KMC的读取错误校正器

标题： RECKONER: Read Error Corrector Based on KMC

Authors:Maciej Dlugosz, Sebastian Deorowicz

摘要：动机：下一代测序工具已使以低成本产生大量基因组信息成为可能。不幸的是，此类数据中存在测序错误会影响后续分析的质量。可以通过执行错误校正来提高它们的准确性。由于此类数据量巨大，校正算法必须：快速、内存节约，并为各种大小的生物体提供高精度的错误检测和消除。结果：我们引入了一种新的基因组数据校正算法，能够在16核CPU上使用不到4GB的RAM，在不到40分钟内处理真核生物300Mbp基因组大小的高错误率数据。该算法能够以优于或与竞争对手相当的水平校正测序数据。这是通过使用非常强大的KMC~2$k$-mer计数器、基于$k$-mer计数和FASTQ质量指标的错误区域校正新方法以及仔细优化实现的。可用性：程序可在http://sun.aei.posl.pl/REFRESH/reckoner免费获得。联系人：sebastian.deorowicz@polsl.pl

摘要： Motivation: Next-generation sequencing tools have enabled producing of huge amount of genomic information at low cost. Unfortunately, presence of sequencing errors in such data affects quality of downstream analyzes. Accuracy of them can be improved by performing error correction. Because of huge amount of such data correction algorithms have to: be fast, memory-frugal, and provide high accuracy of error detection and elimination for variously-sized organisms. Results: We introduce a new algorithm for genomic data correction, capable of processing eucaryotic 300 Mbp-genome-size, high error-rated data using less than 4 GB of RAM in less than 40 minutes on 16-core CPU. The algorithm allows to correct sequencing data at better or comparable level than competitors. This was achieved by using very robust KMC~2 $k$-mer counter, new method of erroneous regions correction based on both $k$-mer counts and FASTQ quality indicators as well as careful optimization. Availability: Program is freely available at http://sun.aei.posl.pl/REFRESH/reckoner. Contact: sebastian.deorowicz@polsl.pl

评论：	7页 + 24页的补充材料
主题：	基因组学 (q-bio.GN) ; 数据结构与算法 (cs.DS)
引用方式：	arXiv:1602.03086 [q-bio.GN]
	(或者 arXiv:1602.03086v1 [q-bio.GN] 对于此版本)
	https://doi.org/10.48550/arXiv.1602.03086
相关 DOI:	https://doi.org/10.1093/bioinformatics/btw746

提交历史

来自： Sebastian Deorowicz [查看电子邮件]
[v1] 星期二， 2016 年 2 月 9 日 17:27:41 UTC (5,437 KB)

定量生物学 > 基因组学

标题： RECKONER：基于KMC的读取错误校正器

标题： RECKONER: Read Error Corrector Based on KMC

提交历史

获取论文：

参考文献与引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

定量生物学 > 基因组学

标题： RECKONER：基于KMC的读取错误校正器 显示英文标题

标题： RECKONER: Read Error Corrector Based on KMC

提交历史

获取论文：

参考文献与引用

BibTeX 格式的引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

标题： RECKONER：基于KMC的读取错误校正器