计算机科学 > 机器学习
[提交于 2025年7月27日
]
标题: ResCap-DBP:一种轻量级残差胶囊网络,用于使用全局ProteinBERT嵌入的准确DNA结合蛋白预测
标题: ResCap-DBP: A Lightweight Residual-Capsule Network for Accurate DNA-Binding Protein Prediction Using Global ProteinBERT Embeddings
摘要: DNA结合蛋白(DBPs)在基因调控和细胞过程中起着关键作用,因此准确识别它们对于理解生物功能和疾病机制至关重要。 用于DBP识别的实验方法耗时且成本高,这推动了高效计算预测技术的需求。 在本研究中,我们提出了一种新的深度学习框架ResCap-DBP,该框架结合了基于残差学习的编码器和一维胶囊网络(1D-CapsNet),直接从原始蛋白质序列中预测DBPs。 我们的架构在残差块中引入扩张卷积以缓解梯度消失问题并提取丰富的序列特征,同时具有动态路由的胶囊层捕获学习特征空间内的层次和空间关系。 我们进行了全面的消融研究,比较了ProteinBERT的全局和局部嵌入与传统one-hot编码。 结果表明, ProteinBERT嵌入在大型数据集上显著优于其他表示方式。 尽管one-hot编码在较小的数据集如PDB186上表现出微弱优势,但其难以有效扩展。 在四对公开可用的基准数据集上的广泛评估表明,我们的模型始终优于当前最先进的方法。 它在PDB14189和PDB1075上的AUC分数分别为98.0%和89.5%。 在独立测试集PDB2272和PDB186上,模型达到了83.2%和83.3%的最高AUC,同时在较大的数据集如 PDB20000上保持了有竞争力的性能。 值得注意的是,该模型在不同数据集上保持了良好的灵敏度和特异性。 这些结果证明了将全局蛋白质表示与先进的深度学习架构相结合在多样化的基因组环境中进行可靠和可扩展的DBP预测的有效性和通用性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.