计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月1日
]
标题: 表示迁移:将标记压缩与FlashAttention统一起来
标题: Representation Shift: Unifying Token Compression with FlashAttention
摘要: Transformer在视觉、语言和视频领域展示了显著的成功。 然而,任务复杂性的增加导致了更大的模型和更多的标记,增加了自注意力的二次成本以及GPU内存访问的开销。 为了减少自注意力的计算成本,先前的工作提出了标记压缩技术,以删除冗余或信息量较少的标记。 同时,像FlashAttention这样的融合注意力内核被开发出来,通过避免注意力图的构建及其相关的HBM I/O来减轻内存开销。 然而,这使得它与大多数无需训练的标记压缩方法不兼容,这些方法依赖于注意力图来确定标记的重要性。 在此,我们提出了Representation Shift,这是一种无需训练、与模型无关的度量,用于衡量每个标记表示的变化程度。 这可以无缝地将标记压缩与FlashAttention结合,而无需注意力图或重新训练。 我们的方法进一步推广到CNN和状态空间模型。 大量实验表明,Representation Shift使与FlashAttention兼容的有效标记压缩成为可能,在视频文本检索和视频问答中分别实现了高达5.5%和4.4%的速度提升。 代码可在https://github.com/mlvlab/Representation-Shift获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.