Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > q-bio > arXiv:2509.22950

帮助 | 高级搜索

定量生物学 > 定量方法

arXiv:2509.22950 (q-bio)
[提交于 2025年9月26日 ]

标题: 双峰:用于蛋白质-蛋白质结合亲和力和突变效应的无结构预测的双头架构

标题: Twin Peaks: Dual-Head Architecture for Structure-Free Prediction of Protein-Protein Binding Affinity and Mutation Effects

Authors:Supantha Dey, Ratul Chowdhury
摘要: 我们提出了一种新颖的双头深度学习架构,用于蛋白质-蛋白质相互作用建模,该架构仅使用蛋白质序列信息即可同时预测结合亲和力($\Delta G$)和突变引起的亲和力变化($\Delta\Delta G$)。 我们的方法通过采用在共享表示网络上运行的专业预测头,实现了对这两个值的直接和优化预测,相较于现有方法有了显著进步。 为了确保稳健的泛化能力,我们整合了来自SKEMPI v2和PDBbind的互补数据集,并采用严格的基于蛋白质域的划分策略,防止训练集和验证集之间的信息泄露。 我们的架构结合了基于Transformer的编码器和一种新的交叉注意力机制,可直接处理成对的蛋白质序列,而无需任何结构信息。 网络使用ESM3表示嵌入输入序列,然后采用可学习的切片窗口嵌入层高效管理变长序列。 一个多层Transformer编码器与双向自注意力捕捉蛋白质内部模式,而交叉注意力层则实现了蛋白质对之间相互作用的显式建模。 这个共享表示网络输入到单独的$\Delta G$和$\Delta\Delta G$预测头,允许任务特定优化,同时利用共同特征。 该模型在$\Delta\Delta G$验证中实现了0.485的皮尔逊相关性,同时保持了强大的$\Delta G$预测(皮尔逊:0.638)。 尽管现有方法需要蛋白质结构数据和结合界面信息,但我们的模型消除了这些限制。 这对于许多结构未知或难以结晶的蛋白质,如病毒蛋白和内在无序蛋白,提供了关键优势。
摘要: We present a novel dual-head deep learning architecture for protein-protein interaction modeling that enables simultaneous prediction of binding affinity ($\Delta G$) and mutation-induced affinity changes ($\Delta\Delta G$) using only protein sequence information. Our approach offers a significant advancement over existing methods by employing specialized prediction heads that operate on a shared representation network, allowing direct and optimized prediction of both values. To ensure robust generalization, we integrated complementary datasets from SKEMPI v2 and PDBbind with a rigorous protein domain-based splitting strategy that prevents information leakage between training and validation sets. Our architecture combines transformer-based encoders with a novel cross-attention mechanism that processes paired protein sequences directly, without requiring any structural information. The network embeds input sequences using ESM3 representations, then employs a learnable sliced window embedding layer to manage variable-length sequences efficiently. A multi-layer transformer encoder with bidirectional self-attention captures intra-protein patterns, while cross-attention layers enable explicit modeling of interactions between protein pairs. This shared representation network feeds into separate $\Delta G$ and $\Delta\Delta G$ prediction heads, allowing task-specific optimization while leveraging common features. The model achieves $\Delta\Delta G$ validation of Pearson correlation at 0.485, while maintaining strong $\Delta G$ predictions (Pearson: 0.638). While existing approaches require protein structure data and binding interface information, our model eliminates these constraints. This provides a critical advantage for the numerous proteins with unknown structures or those challenging to crystallize, such as viral and intrinsically disordered proteins.
主题: 定量方法 (q-bio.QM)
引用方式: arXiv:2509.22950 [q-bio.QM]
  (或者 arXiv:2509.22950v1 [q-bio.QM] 对于此版本)
  https://doi.org/10.48550/arXiv.2509.22950
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Supantha Dey [查看电子邮件]
[v1] 星期五, 2025 年 9 月 26 日 21:32:33 UTC (30 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
q-bio.QM
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-09
切换浏览方式为:
q-bio

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号