Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2402.00086

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2402.00086 (cs)
[提交于 2024年1月31日 ]

标题: 基于虚拟反应数据增强的逆合成预测

标题: Retrosynthesis prediction enhanced by in-silico reaction data augmentation

Authors:Xu Zhang, Yiming Mo, Wenguan Wang, Yi Yang
摘要: 最近机器学习(ML)的进展通过帮助化学家更高效地设计实验,加快了逆合成研究。然而,所有基于ML的方法都需要大量配对的训练数据(即化学反应:产物-反应物对),而获取这些数据成本很高。此外,公司视反应数据为宝贵资产,并限制研究人员的访问。由于这些数据驱动的性质,这些问题阻碍了更强大逆合成模型的创建。作为回应,我们利用易于获取的非配对数据(即产物-反应物对的一个组成部分)来生成模拟配对数据,以促进模型训练。具体来说,我们提出了RetroWISE,这是一种自增强框架,它使用从真实配对数据中推断出的基础模型,利用非配对数据进行模拟反应生成和增强,最终得到一个更优的模型。在三个基准数据集上,RetroWISE在与最先进模型的对比中表现最佳(例如,在USPTO-50K测试数据集上top-1准确率提高了8.6%)。此外,它持续提高了罕见转化的预测准确性。这些结果表明,Retro-WISE通过模拟反应克服了训练瓶颈,从而为更有效的基于ML的逆合成模型铺平了道路。
摘要: Recent advances in machine learning (ML) have expedited retrosynthesis research by assisting chemists to design experiments more efficiently. However, all ML-based methods consume substantial amounts of paired training data (i.e., chemical reaction: product-reactant(s) pair), which is costly to obtain. Moreover, companies view reaction data as a valuable asset and restrict the accessibility to researchers. These issues prevent the creation of more powerful retrosynthesis models due to their data-driven nature. As a response, we exploit easy-to-access unpaired data (i.e., one component of product-reactant(s) pair) for generating in-silico paired data to facilitate model training. Specifically, we present RetroWISE, a self-boosting framework that employs a base model inferred from real paired data to perform in-silico reaction generation and augmentation using unpaired data, ultimately leading to a superior model. On three benchmark datasets, RetroWISE achieves the best overall performance against state-of-the-art models (e.g., +8.6% top-1 accuracy on the USPTO-50K test dataset). Moreover, it consistently improves the prediction accuracy of rare transformations. These results show that Retro- WISE overcomes the training bottleneck by in-silico reactions, thereby paving the way toward more effective ML-based retrosynthesis models.
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI)
引用方式: arXiv:2402.00086 [cs.LG]
  (或者 arXiv:2402.00086v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2402.00086
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Wenguan Wang [查看电子邮件]
[v1] 星期三, 2024 年 1 月 31 日 07:40:37 UTC (1,721 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-02
切换浏览方式为:
cs
cs.AI

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号