物理学 > 化学物理
[提交于 2025年3月27日
]
标题: 有机分子三维自回归生成机器学习中的结构偏差
标题: Structural bias in three-dimensional autoregressive generative machine learning of organic molecules
摘要: 近年来,提出了一系列生成式机器学习模型,用于设计新型分子和材料。 能够生成三维结构的模型特别适合量子化学工作流,从而可以直接预测性质。 生成模型的性能通常根据其生成新颖、有效和唯一分子的能力来评估。 然而,同样重要的是它们学习训练数据中功能基团和某些化学基元出现频率的能力,即忠实地再现训练数据所跨越的化学空间。 在此,我们研究了自回归生成机器学习模型G-SchNet再现由大型功能有机分子组成的训练数据集的化学空间和性质分布的能力。 我们评估了训练分子和生成分子的元素组成、尺寸和键长分布,以及功能基团和化学空间分布。 通过化学空间的主成分分析,我们发现该模型导致了一种偏向性的生成,这种偏向性在很大程度上不受超参数选择或训练数据集分布的影响,生成的分子平均而言更加不饱和并含有更多杂原子。 纯脂肪族分子在生成过程中大多缺失。 我们进一步研究了在功能基团约束下的生成以及基于复合数据集的生成,这有助于部分缓解模型生成的偏差。 决策树模型可以识别模型中的生成偏差,并区分训练数据和生成数据,揭示这两组之间的关键化学差异。 我们发现的化学差异会影响电子性质(如HOMO-LUMO间隙)的分布,而HOMO-LUMO间隙是功能分子设计的常见目标。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.