Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > physics > arXiv:2505.08688v1

帮助 | 高级搜索

物理学 > 化学物理

arXiv:2505.08688v1 (physics)
[提交于 2025年5月13日 ]

标题: 使用 ChemXploreML 进行分子属性预测的机器学习管道

标题: A Machine Learning Pipeline for Molecular Property Prediction using ChemXploreML

Authors:Aravindh Nivas Marimuthu, Brett A. McGuire
摘要: 我们介绍了ChemXploreML,这是一个为基于机器学习的分子性质预测设计的模块化桌面应用程序。该框架的灵活架构允许将任何分子嵌入技术与现代机器学习算法集成,使研究人员能够在不需要广泛编程专业知识的情况下自定义其预测管道。为了展示该框架的能力,我们实现了两种分子嵌入方法——Mol2Vec和VICGAE(方差-不变性-协方差正则化GRU自动编码器)——并与最先进的基于树的集成方法(梯度提升回归、XGBoost、CatBoost和LightGBM)结合使用。使用五个基本分子性质作为测试案例——熔点(MP)、沸点(BP)、蒸气压(VP)、临界温度(CT)和临界压力(CP),我们在CRC化学与物理手册的数据集上验证了我们的框架。模型对于分布良好的属性表现优秀,在临界温度预测中的R$^2$值高达0.93。值得注意的是,虽然Mol2Vec嵌入(300维)提供了稍高的准确率,但VICGAE嵌入(32维)表现出相当的性能,同时提供了显著提高的计算效率。ChemXploreML的模块化设计便于新嵌入技术和机器学习算法的轻松集成,提供了一个灵活的平台用于定制性质预测任务。该应用程序通过直观的界面自动化化学数据预处理(包括基于UMAP的分子空间探索)、模型优化和性能分析,使得复杂的机器学习技术易于访问,同时为高级化学信息学用户提供可扩展性。
摘要: We present ChemXploreML, a modular desktop application designed for machine learning-based molecular property prediction. The framework's flexible architecture allows integration of any molecular embedding technique with modern machine learning algorithms, enabling researchers to customize their prediction pipelines without extensive programming expertise. To demonstrate the framework's capabilities, we implement and evaluate two molecular embedding approaches - Mol2Vec and VICGAE (Variance-Invariance-Covariance regularized GRU Auto-Encoder) - combined with state-of-the-art tree-based ensemble methods (Gradient Boosting Regression, XGBoost, CatBoost, and LightGBM). Using five fundamental molecular properties as test cases - melting point (MP), boiling point (BP), vapor pressure (VP), critical temperature (CT), and critical pressure (CP) - we validate our framework on a dataset from the CRC Handbook of Chemistry and Physics. The models achieve excellent performance for well-distributed properties, with R$^2$ values up to 0.93 for critical temperature predictions. Notably, while Mol2Vec embeddings (300 dimensions) delivered slightly higher accuracy, VICGAE embeddings (32 dimensions) exhibited comparable performance yet offered significantly improved computational efficiency. ChemXploreML's modular design facilitates easy integration of new embedding techniques and machine learning algorithms, providing a flexible platform for customized property prediction tasks. The application automates chemical data preprocessing (including UMAP-based exploration of molecular space), model optimization, and performance analysis through an intuitive interface, making sophisticated machine learning techniques accessible while maintaining extensibility for advanced cheminformatics users.
评论: 17页,7张图,被《化学信息学与建模杂志》接受
主题: 化学物理 (physics.chem-ph)
引用方式: arXiv:2505.08688 [physics.chem-ph]
  (或者 arXiv:2505.08688v1 [physics.chem-ph] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.08688
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Aravindh Nivas Marimuthu [查看电子邮件]
[v1] 星期二, 2025 年 5 月 13 日 15:46:26 UTC (4,868 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
physics.chem-ph
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
physics

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号