Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.20036v1

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2505.20036v1 (cs)
[提交于 2025年5月26日 ]

标题: 超越简单的拼接:公平评估PLM架构在多链蛋白质-蛋白质相互作用预测中的性能

标题: Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction

Authors:Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar
摘要: 蛋白质-蛋白质相互作用(PPIs)对于众多细胞过程至关重要,对其特征的理解对于理解疾病机制和指导药物发现至关重要。尽管蛋白质语言模型(PLMs)在预测蛋白质结构和功能方面取得了显著成功,但它们在基于序列的PPI结合亲和力预测中的应用仍相对未被充分探索。这一差距通常归因于高质量、严格精炼的数据集的稀缺以及对简单策略用于连接蛋白质表示的依赖。在这项工作中,我们解决了这些限制。首先,我们引入了一个精心策划的PPB-Affinity数据集版本,共有8,207个独特的蛋白质-蛋白质相互作用条目,通过解决注释不一致和多链蛋白质相互作用的重复条目问题。该数据集采用了严格的、小于或等于30%的序列同一性阈值,以确保训练、验证和测试集的稳健分割,最大限度地减少数据泄漏。其次,我们提出了四种架构来适应PLMs进行PPI结合亲和力预测:嵌入连接(EC)、序列连接(SC)、层次池化(HP)和汇集注意力添加(PAD)。这些架构使用了两种训练方法进行评估:完全微调和一种轻量级方法,即在冻结的PLM特征上使用ConvBERT头部。我们在多个领先的PLMs(ProtT5、ESM2、Ankh、Ankh2和ESM3)上进行全面实验表明,HP和PAD架构始终优于传统的连接方法,在斯皮尔曼相关系数方面提高了多达12%。这些结果强调了复杂架构设计的必要性,以便充分利用PLMs在细微PPI结合亲和力预测中的能力。
摘要: Protein-protein interactions (PPIs) are fundamental to numerous cellular processes, and their characterization is vital for understanding disease mechanisms and guiding drug discovery. While protein language models (PLMs) have demonstrated remarkable success in predicting protein structure and function, their application to sequence-based PPI binding affinity prediction remains relatively underexplored. This gap is often attributed to the scarcity of high-quality, rigorously refined datasets and the reliance on simple strategies for concatenating protein representations. In this work, we address these limitations. First, we introduce a meticulously curated version of the PPB-Affinity dataset of a total of 8,207 unique protein-protein interaction entries, by resolving annotation inconsistencies and duplicate entries for multi-chain protein interactions. This dataset incorporates a stringent, less than or equal to 30%, sequence identity threshold to ensure robust splitting into training, validation, and test sets, minimizing data leakage. Second, we propose and systematically evaluate four architectures for adapting PLMs to PPI binding affinity prediction: embeddings concatenation (EC), sequences concatenation (SC), hierarchical pooling (HP), and pooled attention addition (PAD). These architectures were assessed using two training methods: full fine-tuning and a lightweight approach employing ConvBERT heads over frozen PLM features. Our comprehensive experiments across multiple leading PLMs (ProtT5, ESM2, Ankh, Ankh2, and ESM3) demonstrated that the HP and PAD architectures consistently outperform conventional concatenation methods, achieving up to 12% increase in terms of Spearman correlation. These results highlight the necessity of sophisticated architectural designs to fully exploit the capabilities of PLMs for nuanced PPI binding affinity prediction.
评论: 15页,4个图
主题: 机器学习 (cs.LG) ; 生物大分子 (q-bio.BM)
引用方式: arXiv:2505.20036 [cs.LG]
  (或者 arXiv:2505.20036v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.20036
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Mohamed Elshaffei [查看电子邮件]
[v1] 星期一, 2025 年 5 月 26 日 14:23:08 UTC (837 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs
q-bio
q-bio.BM

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | Disable MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号