定量生物学 > 定量方法
[提交于 2025年7月16日
]
标题: 蛋白质语言模型的持续领域特定预训练用于pMHC-I结合预测
标题: Continued domain-specific pre-training of protein language models for pMHC-I binding prediction
摘要: 由于极端的等位基因多样性($\sim$30,000 HLA等位基因)、大多数等位基因的数据稀缺性以及噪声实验测量,预测肽-主要组织相容性复合体I类(pMHC-I)结合亲和力仍然具有挑战性。 当前方法在处理代表性不足的等位基因和定量结合预测方面尤其困难。 我们测试了蛋白质语言模型的领域特定持续预训练是否有助于其在pMHC-I结合亲和力预测中的应用。 从ESM Cambrian(300M参数)开始,我们在与HLA相关的肽(表位)上进行基于掩码语言建模(MLM)的持续预训练,测试两种输入格式:仅表位序列与表位序列与HLA重链序列拼接。 然后,我们仅使用高质量的定量数据对功能IC$_{50}$结合亲和力预测进行微调,避免现有方法继承的质量谱分析偏差。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.