定量生物学 > 定量方法
[提交于 2025年9月26日
]
标题: 双峰:用于蛋白质-蛋白质结合亲和力和突变效应的无结构预测的双头架构
标题: Twin Peaks: Dual-Head Architecture for Structure-Free Prediction of Protein-Protein Binding Affinity and Mutation Effects
摘要: 我们提出了一种新颖的双头深度学习架构,用于蛋白质-蛋白质相互作用建模,该架构仅使用蛋白质序列信息即可同时预测结合亲和力($\Delta G$)和突变引起的亲和力变化($\Delta\Delta G$)。 我们的方法通过采用在共享表示网络上运行的专业预测头,实现了对这两个值的直接和优化预测,相较于现有方法有了显著进步。 为了确保稳健的泛化能力,我们整合了来自SKEMPI v2和PDBbind的互补数据集,并采用严格的基于蛋白质域的划分策略,防止训练集和验证集之间的信息泄露。 我们的架构结合了基于Transformer的编码器和一种新的交叉注意力机制,可直接处理成对的蛋白质序列,而无需任何结构信息。 网络使用ESM3表示嵌入输入序列,然后采用可学习的切片窗口嵌入层高效管理变长序列。 一个多层Transformer编码器与双向自注意力捕捉蛋白质内部模式,而交叉注意力层则实现了蛋白质对之间相互作用的显式建模。 这个共享表示网络输入到单独的$\Delta G$和$\Delta\Delta G$预测头,允许任务特定优化,同时利用共同特征。 该模型在$\Delta\Delta G$验证中实现了0.485的皮尔逊相关性,同时保持了强大的$\Delta G$预测(皮尔逊:0.638)。 尽管现有方法需要蛋白质结构数据和结合界面信息,但我们的模型消除了这些限制。 这对于许多结构未知或难以结晶的蛋白质,如病毒蛋白和内在无序蛋白,提供了关键优势。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.