定量生物学 > 基因组学
[提交于 2025年7月4日
]
标题: 从泛基因组数据中寻找短读长变异检测的易处理区域
标题: Finding easy regions for short-read variant calling from pangenome data
摘要: 背景:尽管在短读长变异检测的基准测试中表明错误率低于0.5%,但这些基准仅适用于预定义的可信区域。对于没有此类区域的人类样本,错误率可能高出10倍。尽管已经识别出多个易于处理的区域以缓解该问题,但它们未能考虑非参考样本,或者偏向于现有的短读长数据或比对工具。结果:在这里,使用数百个高质量的人类基因组组装,我们推导出了一组与样本无关的易于处理的区域,其中短读长变异检测达到高准确性。这些区域覆盖了GRCh38的87.9%、编码区域的92.7%以及ClinVar致病变异的96.4%。它们在覆盖率和易处理性之间取得了良好的平衡,并可以为其他人类基因组或具有多个良好组装基因组的物种生成。结论:此资源为临床或研究用人类样本过滤虚假的变异调用提供了一个方便且强大的方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.