计算机科学 > 机器学习
[提交于 2025年7月28日
]
标题: 基于子序列重排序预训练的零样本学习用于化合物-蛋白质相互作用
标题: Zero-Shot Learning with Subsequence Reordering Pretraining for Compound-Protein Interaction
摘要: 鉴于化学空间的广阔性和不断出现的未表征蛋白质,零样本化合物-蛋白质相互作用(CPI)预测更能反映现实世界药物开发的实际挑战和需求。 尽管现有方法在某些CPI任务中表现良好,但仍面临以下挑战:(1) 从局部或完整蛋白质序列中进行表示学习常常忽视子序列之间的复杂依赖关系,而这些关系对于预测空间结构和结合特性至关重要。 (2) 依赖于大规模或稀缺的多模态蛋白质数据集需要大量的训练数据和计算资源,限制了可扩展性和效率。 为了解决这些挑战,我们提出了一种新方法,通过子序列重新排序对蛋白质表示进行预训练,以显式捕捉蛋白质子序列之间的依赖关系。 此外,我们应用长度可变的蛋白质增强方法,以确保在小规模训练数据集上具有出色的预训练性能。 为了评估模型的有效性和零样本学习能力,我们将它与各种基线方法结合。 结果表明,我们的方法可以提高基线模型在CPI任务上的性能,尤其是在具有挑战性的零样本场景中。 与现有的预训练模型相比,我们的模型表现出更优越的性能,特别是在训练样本有限的数据稀缺场景中。 我们的实现可在 https://github.com/Hoch-Zhang/PSRP-CPI 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.