定量生物学 > 定量方法
[提交于 2025年1月4日
(v1)
,最后修订 2025年6月15日 (此版本, v2)]
标题: 预测设计的小生物分子的新功能角色:一种利用PubChem化合物和物质标识符的ML方法(CID-SID ML模型)
标题: Predicting Novel Functional Roles of Designed Small Biomolecules: An ML Approach Utilizing PubChem Compound and Substance Identifiers (CID-SID ML model)
摘要: 意义与目标:所提出的方法旨在为药物发现的早期阶段提供一种省时且经济高效的途径。 本研究开发的机器学习模型仅使用了来自PubChem提供的标识符。 因此,获得PubChem CID和SID的药物开发研究人员可以轻松识别化合物的新功能。 通过四种生物测定方法展示了该方法,包括:(i)人D3多巴胺受体拮抗剂;(ii)Rab9激活剂促进剂; (iii)CHOP的小分子抑制剂以调节未折叠蛋白反应对内质网应激;(iv)人M1毒蕈碱受体拮抗剂。 解决方案:用于展示该方法的四种生物测定方法由PubChem提供。 对于每种生物测定方法,提取了由PubChem生成的CID、SID以及相应的活性。 所得数据集经过水溶性生物测定数据集筛选,仅保留两种生物测定中共同的化合物。 这样减少了非活性化合物的数量。 然后加入所有活性化合物,所得数据集随后用于基于scikit-learn算法的机器学习。 结果:四种生物测定中ML模型指标的平均值为:83.82% 准确率,标准差为5.35;87.9% 精确率,标准差为5.04;77.1% 召回率,标准差为7.65;82.1% F1分数,标准差为6.44;83.4% ROC曲线,标准差为5.09。 由于该方法作为预印本公开可用,又开发了四个机器学习模型。 它们的结果在“结果与讨论”部分进行了讨论。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.