计算机科学 > 机器学习
[提交于 2024年12月2日
]
标题: 用量化球坐标对三维分子结构进行分词
标题: Tokenizing 3D Molecule Structure with Quantized Spherical Coordinates
摘要: 语言模型(LMs)在使用SMILES和SELFIES等线性表示法进行分子结构生成中的应用在化学生物信息学领域已经得到了充分确立。 然而,将这些模型扩展到生成三维分子结构面临重大挑战。 两个主要障碍出现:(1)设计一种确保SE(3)不变原子坐标的三维线性表示法的困难,以及(2)将连续坐标进行分词以用于本质上需要离散输入的语言模型的非平凡任务。 为了解决这些挑战,我们提出了Mol-StrucTok,这是一种用于对三维分子结构进行分词的新方法。 我们的方法包含两项关键创新:(1)我们通过在球面坐标系中提取局部原子坐标来设计一种三维分子的线性表示法。 这种表示法建立在现有的二维线性表示法基础上,并对其具体形式保持中立,从而确保与各种分子表示方案的兼容性。(2)我们采用向量量化变分自编码器(VQ-VAE)对这些坐标进行分词,将其视为生成描述符。 为了进一步增强表示,我们将邻域键长和键角作为理解描述符进行整合。 利用这种分词框架,我们训练了一个类似GPT-2的模型,用于三维分子生成任务。 结果表明,与之前的方法相比,该方法表现出强大的性能,生成速度显著加快,并且具有竞争力的化学稳定性。 此外,通过将我们学习到的离散表示整合到Graphormer模型中,用于QM9数据集上的性质预测,Mol-StrucTok在各种分子性质上均显示出一致的改进,这凸显了我们方法的多样性和鲁棒性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.