定量生物学 > 生物大分子
[提交于 2025年1月10日
]
标题: 颜色:基于组合线性运算的蛋白质序列表示,用于识别单体对性质的贡献
标题: COLOR: A compositional linear operation-based representation of protein sequences for identification of monomer contributions to properties
摘要: 生物材料如蛋白质和核酸的性质主要由其一级序列决定。 虽然序列中的某些片段强烈影响特定功能,但由于序列数据的复杂性,识别这些片段或所谓的基序(motifs)具有挑战性。 虽然深度学习(DL)模型可以准确捕捉序列-属性关系,但这些模型中的非线性程度限制了对单体对属性贡献的评估——这是识别关键基序的关键步骤。 可解释人工智能(XAI)的最新进展提供了注意力和基于梯度的方法来估计单体贡献。 然而,这些方法主要应用于分类任务,例如结合位点识别,在这些任务中它们的准确性有限(40-45%),并且依赖于定性评估。 为了解决这些限制,我们引入了一个具有可解释步骤的DL模型,能够直接追踪单体贡献。 我们还提出了一种指标($\mathcal{I}$),该指标受到图像分析和自然语言处理领域掩码技术的启发,用于对主要包含抗癌肽(ACP)、抗菌肽(AMP)和胶原蛋白特性的数据集进行定量分析。 我们的模型表现出22%更高的可解释性,确定了显著破坏ACP的临界基序(RRR、RRI和RSS),并识别出在将非AMP转化为AMP方面有效的AMP基序。 这些发现突显了我们的模型在指导设计基于蛋白质的生物材料的突变策略方面的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.