计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: 基于注意力感知的标记过滤加速视觉变换器模型
标题: Speed-up of Vision Transformer Models by Attention-aware Token Filtering
摘要: 视觉Transformer(ViT)模型在图像嵌入提取方面取得了突破,为零样本图像分类等任务提供了最先进的性能。然而,这些模型计算负担沉重。本文提出了一种新的ViT模型加速方法,称为注意力感知标记过滤(ATF)。ATF由两个主要思想组成:一种新的标记过滤模块和一种过滤策略。标记过滤模块被引入到ViT模型的分词器和变换器编码器之间,而无需修改或微调变换器编码器。该模块过滤输入编码器的标记,使其能够动态保留特定对象类型区域中的标记,并保留静态接收高注意力的区域中的标记。这种过滤策略在过滤输入到变换器编码器的标记的同时保持了任务准确性。检索任务上的评估结果显示,ATF为ViT模型SigLIP提供了$2.8\times$倍速度提升,同时保持了检索召回率。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.