计算机科学 > 机器学习
[提交于 2024年1月31日
]
标题: 基于虚拟反应数据增强的逆合成预测
标题: Retrosynthesis prediction enhanced by in-silico reaction data augmentation
摘要: 最近机器学习(ML)的进展通过帮助化学家更高效地设计实验,加快了逆合成研究。然而,所有基于ML的方法都需要大量配对的训练数据(即化学反应:产物-反应物对),而获取这些数据成本很高。此外,公司视反应数据为宝贵资产,并限制研究人员的访问。由于这些数据驱动的性质,这些问题阻碍了更强大逆合成模型的创建。作为回应,我们利用易于获取的非配对数据(即产物-反应物对的一个组成部分)来生成模拟配对数据,以促进模型训练。具体来说,我们提出了RetroWISE,这是一种自增强框架,它使用从真实配对数据中推断出的基础模型,利用非配对数据进行模拟反应生成和增强,最终得到一个更优的模型。在三个基准数据集上,RetroWISE在与最先进模型的对比中表现最佳(例如,在USPTO-50K测试数据集上top-1准确率提高了8.6%)。此外,它持续提高了罕见转化的预测准确性。这些结果表明,Retro-WISE通过模拟反应克服了训练瓶颈,从而为更有效的基于ML的逆合成模型铺平了道路。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.