定量生物学 > 基因组学
[提交于 2025年7月12日
]
标题: 基于注意力的核苷酸分析的上下文感知正则化与马尔可夫集成
标题: Context-Aware Regularization with Markovian Integration for Attention-Based Nucleotide Analysis
摘要: Transformer已经彻底改变了核苷酸序列分析,但捕捉长距离依赖关系仍然具有挑战性。 最近的研究表明,自回归的Transformer通常通过依赖固定长度的上下文窗口进行下一个标记预测而表现出马尔可夫行为。 然而,由于其二次复杂度,标准的自注意力机制在处理长序列时计算效率低下,并且不显式强制全局转移一致性。 我们引入了CARMANIA(基于注意力的核苷酸分析中的上下文感知正则化与马尔可夫集成),这是一种自我监督的预训练框架,通过引入转移矩阵(TM)损失来增强下一个标记(NT)预测。 TM损失将预测的标记转移与每个输入序列的经验n-gram统计对齐,鼓励模型捕捉超出局部上下文的高阶依赖关系。 这种集成使CARMANIA能够学习反映进化约束和功能组织的生物特异性序列结构。 我们在多种基因组任务上评估了CARMANIA,包括调控元件预测、功能基因分类、系统发育推断、抗菌素耐药性检测和生物合成基因簇分类。 CARMANIA比之前的最佳长上下文模型至少提高了7个百分点,在较短序列上达到了最先进的水平(在40项任务中有20项超过了之前的结果,同时运行速度大约快2.5倍),并在增强子和管家基因分类任务中表现出特别显著的改进,包括增强子预测的马修斯相关系数(MCC)绝对提高高达34个百分点。 TM损失在40项任务中的33项中提高了准确性,尤其是在局部基序或调控模式驱动预测的情况下。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.