物理学 > 化学物理
[提交于 2025年5月13日
]
标题: 使用 ChemXploreML 进行分子属性预测的机器学习管道
标题: A Machine Learning Pipeline for Molecular Property Prediction using ChemXploreML
摘要: 我们介绍了ChemXploreML,这是一个为基于机器学习的分子性质预测设计的模块化桌面应用程序。该框架的灵活架构允许将任何分子嵌入技术与现代机器学习算法集成,使研究人员能够在不需要广泛编程专业知识的情况下自定义其预测管道。为了展示该框架的能力,我们实现了两种分子嵌入方法——Mol2Vec和VICGAE(方差-不变性-协方差正则化GRU自动编码器)——并与最先进的基于树的集成方法(梯度提升回归、XGBoost、CatBoost和LightGBM)结合使用。使用五个基本分子性质作为测试案例——熔点(MP)、沸点(BP)、蒸气压(VP)、临界温度(CT)和临界压力(CP),我们在CRC化学与物理手册的数据集上验证了我们的框架。模型对于分布良好的属性表现优秀,在临界温度预测中的R$^2$值高达0.93。值得注意的是,虽然Mol2Vec嵌入(300维)提供了稍高的准确率,但VICGAE嵌入(32维)表现出相当的性能,同时提供了显著提高的计算效率。ChemXploreML的模块化设计便于新嵌入技术和机器学习算法的轻松集成,提供了一个灵活的平台用于定制性质预测任务。该应用程序通过直观的界面自动化化学数据预处理(包括基于UMAP的分子空间探索)、模型优化和性能分析,使得复杂的机器学习技术易于访问,同时为高级化学信息学用户提供可扩展性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.