Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > q-bio > arXiv:1602.03086

帮助 | 高级搜索

定量生物学 > 基因组学

arXiv:1602.03086 (q-bio)
[提交于 2016年2月9日 ]

标题: RECKONER:基于KMC的读取错误校正器

标题: RECKONER: Read Error Corrector Based on KMC

Authors:Maciej Dlugosz, Sebastian Deorowicz
摘要: 动机:下一代测序工具已使以低成本产生大量基因组信息成为可能。 不幸的是,此类数据中存在测序错误会影响后续分析的质量。 可以通过执行错误校正来提高它们的准确性。 由于此类数据量巨大,校正算法必须:快速、内存节约,并为各种大小的生物体提供高精度的错误检测和消除。 结果:我们引入了一种新的基因组数据校正算法,能够在16核CPU上使用不到4GB的RAM,在不到40分钟内处理真核生物300Mbp基因组大小的高错误率数据。 该算法能够以优于或与竞争对手相当的水平校正测序数据。 这是通过使用非常强大的KMC~2$k$-mer计数器、基于$k$-mer计数和FASTQ质量指标的错误区域校正新方法以及仔细优化实现的。 可用性:程序可在http://sun.aei.posl.pl/REFRESH/reckoner免费获得。 联系人:sebastian.deorowicz@polsl.pl
摘要: Motivation: Next-generation sequencing tools have enabled producing of huge amount of genomic information at low cost. Unfortunately, presence of sequencing errors in such data affects quality of downstream analyzes. Accuracy of them can be improved by performing error correction. Because of huge amount of such data correction algorithms have to: be fast, memory-frugal, and provide high accuracy of error detection and elimination for variously-sized organisms. Results: We introduce a new algorithm for genomic data correction, capable of processing eucaryotic 300 Mbp-genome-size, high error-rated data using less than 4 GB of RAM in less than 40 minutes on 16-core CPU. The algorithm allows to correct sequencing data at better or comparable level than competitors. This was achieved by using very robust KMC~2 $k$-mer counter, new method of erroneous regions correction based on both $k$-mer counts and FASTQ quality indicators as well as careful optimization. Availability: Program is freely available at http://sun.aei.posl.pl/REFRESH/reckoner. Contact: sebastian.deorowicz@polsl.pl
评论: 7页 + 24页的补充材料
主题: 基因组学 (q-bio.GN) ; 数据结构与算法 (cs.DS)
引用方式: arXiv:1602.03086 [q-bio.GN]
  (或者 arXiv:1602.03086v1 [q-bio.GN] 对于此版本)
  https://doi.org/10.48550/arXiv.1602.03086
通过 DataCite 发表的 arXiv DOI
相关 DOI: https://doi.org/10.1093/bioinformatics/btw746
链接到相关资源的 DOI

提交历史

来自: Sebastian Deorowicz [查看电子邮件]
[v1] 星期二, 2016 年 2 月 9 日 17:27:41 UTC (5,437 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
q-bio
< 上一篇   |   下一篇 >
新的 | 最近的 | 2016-02
切换浏览方式为:
cs
cs.DS
q-bio.GN

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号