电气工程与系统科学 > 图像与视频处理
[提交于 2025年1月10日
(v1)
,最后修订 2025年2月10日 (此版本, v3)]
标题: ELFATT:用于视觉变压器的高效线性快速注意力
标题: ELFATT: Efficient Linear Fast Attention for Vision Transformers
摘要: 注意力机制是变压器在不同机器学习任务中取得成功的关键。 然而,传统的基于softmax的注意力机制相对于序列长度的二次复杂度成为长序列任务(如视觉任务)应用的主要瓶颈。 尽管已经提出了各种高效的线性注意力机制,但它们需要牺牲性能以实现高效率。 此外,像FlashAttention-1-3这样的内存高效方法仍然具有二次计算复杂度,可以进一步改进。 在本文中,我们提出了一种新颖的高效线性快速注意力(ELFATT)机制,以同时实现低内存输入/输出操作、线性计算复杂度和高性能。 在高分辨率视觉任务中,ELFATT相比传统的基于softmax的注意力机制提供了4-7倍的速度提升,而不会损失性能。 ELFATT兼容FlashAttention。 使用FlashAttention-2加速,ELFATT在高分辨率视觉任务中相比传统的基于softmax的注意力机制仍提供2-3倍的速度提升,而不会损失性能。 即使在边缘GPU上,ELFATT在各种功率模式(从5W到60W)下与最先进的注意力机制相比仍能提供1.6倍至2.0倍的速度提升。 此外,ELFATT可以直接用于增强和加速扩散任务,而无需训练。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.