定量生物学 > 基因组学
[提交于 2025年1月26日
]
标题: 巨猎人:使用强化学习和蒙特卡洛树搜索在宏基因组数据中准确检测巨型病毒
标题: GiantHunter: Accurate detection of giant virus in metagenomic data using reinforcement-learning and Monte Carlo tree search
摘要: 动机:细胞质大DNA病毒(NCLDVs)因其大的基因组和广泛的功能基因库而引人注目,这有助于它们在环境中的广泛存在以及在宿主代谢重编程和养分循环等过程中的关键作用。宏基因组测序已成为在环境样本中发现新型NCLDVs的强大工具。然而,由于其基因组多样性高、参考基因组有限以及与其他微生物共享区域,从宏基因组数据中识别NCLDVs序列仍然具有挑战性。现有的基于比对和机器学习的方法在敏感性和精确度之间难以达到最佳平衡。结果:在这项工作中,我们提出了GiantHunter,一种基于强化学习的工具,用于从宏基因组数据中识别NCLDVs。通过采用蒙特卡洛树搜索策略,GiantHunter动态选择代表性的非NCLDVs序列作为负训练数据,使模型能够建立稳健的决策边界。在严格设计的实验中进行基准测试表明,GiantHunter在保持竞争力的敏感度的同时实现了高精确度,与第二好的方法相比,F1分数提高了10%,计算成本降低了90%。为了展示其实际应用价值,我们将GiantHunter应用于从长江沿线六个城市收集的60个宏基因组数据集,这些城市位于三峡大坝的上游和下游。结果揭示了NCLDV多样性与大坝接近程度之间的显著差异,这可能受到大坝导致流速降低的影响。这些发现突显了GiantSeeker在推进我们对NCLDVs及其在不同环境中生态作用的理解方面的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.