计算机科学 > 机器学习
[提交于 2025年5月20日
]
标题: 任意温度下注意力的次二次算法和难度
标题: Subquadratic Algorithms and Hardness for Attention with Any Temperature
摘要: 尽管Transformer架构很受欢迎,但计算Attention的标准算法在上下文长度上具有二次时间复杂度$n$。 Alman和Song [NeurIPS 2023]表明,当头维度$d = \Theta(\log n)$时,在强指数时间假设($\mathsf{SETH}$)下,只有当输入的绝对值被$B = o(\sqrt{\log n})$界限时,才能实现次二次Attention。 等价地,当对$d=\Theta(\log n)$使用高温softmax时,才能实现次二次Attention。 这些算法的运行时间呈指数级依赖于$B$,因此它们在$B$的特定范围之外并不能导致多项式时间算法。 这自然引出了一个问题:在不施加强温度假设的情况下,何时可以高效地计算Attention? 有快速注意力算法能够在条目大小上以多项对数时间复杂度进行吗$B$? 在本工作中,我们解决了这个问题,并描述了在任意温度下实现快速注意力的条件。 首先,对于所有常数$d = O(1)$,我们给出了第一个次二次$\tilde{O}(n^{2 - 1/d} \cdot \mathrm{polylog}(B))$时间的注意力算法,适用于大的$B$。 即使矩阵具有较大的头维度,只要它们的秩较低,我们的结果仍然成立。 在这个范围内,我们也为注意力梯度计算提供了类似的运行时间,因此也适用于完整的LLM训练过程。 此外,我们表明对我们的算法进行重大改进是不太可能的。 特别是,我们证明了即使当$d = 2^{\Theta(\log^* n)}$时,注意力在$\mathsf{SETH}$下需要$n^{2 - o(1)}$时间。 最后,在$d = \mathrm{poly}(n)$的情况下,我们证明在流行的细粒度复杂性假设下,标准算法是最佳的。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.