计算机科学 > 机器学习
[提交于 2025年5月26日
]
标题: 超越简单的拼接:公平评估PLM架构在多链蛋白质-蛋白质相互作用预测中的性能
标题: Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction
摘要: 蛋白质-蛋白质相互作用(PPIs)对于众多细胞过程至关重要,对其特征的理解对于理解疾病机制和指导药物发现至关重要。尽管蛋白质语言模型(PLMs)在预测蛋白质结构和功能方面取得了显著成功,但它们在基于序列的PPI结合亲和力预测中的应用仍相对未被充分探索。这一差距通常归因于高质量、严格精炼的数据集的稀缺以及对简单策略用于连接蛋白质表示的依赖。在这项工作中,我们解决了这些限制。首先,我们引入了一个精心策划的PPB-Affinity数据集版本,共有8,207个独特的蛋白质-蛋白质相互作用条目,通过解决注释不一致和多链蛋白质相互作用的重复条目问题。该数据集采用了严格的、小于或等于30%的序列同一性阈值,以确保训练、验证和测试集的稳健分割,最大限度地减少数据泄漏。其次,我们提出了四种架构来适应PLMs进行PPI结合亲和力预测:嵌入连接(EC)、序列连接(SC)、层次池化(HP)和汇集注意力添加(PAD)。这些架构使用了两种训练方法进行评估:完全微调和一种轻量级方法,即在冻结的PLM特征上使用ConvBERT头部。我们在多个领先的PLMs(ProtT5、ESM2、Ankh、Ankh2和ESM3)上进行全面实验表明,HP和PAD架构始终优于传统的连接方法,在斯皮尔曼相关系数方面提高了多达12%。这些结果强调了复杂架构设计的必要性,以便充分利用PLMs在细微PPI结合亲和力预测中的能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.