计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
]
标题: 稀疏-vDiT:释放稀疏注意力的力量以加速视频扩散变换器
标题: Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers
摘要: 虽然扩散Transformer(DiTs)在视频生成方面取得了突破,但这一长序列生成任务仍然受到注意力机制二次复杂性的限制,导致显著的推理延迟。 通过对视频扩散Transformer(vDiT)中注意力图的详细分析,我们确定了三种重复出现的稀疏模式:对角线、多对角线和竖条纹结构。 并且甚至可以跳过3-6%的注意力头。 至关重要的是,这些模式表现出强烈的层深度和头位置相关性,但对输入内容的依赖有限。 利用这些发现,我们提出了Sparse-vDiT,这是一种针对vDiT的稀疏加速框架,包括:1)针对每种识别出的稀疏模式,用计算效率更高的实现替换密集注意力的模式优化稀疏核。2)一种离线稀疏扩散搜索算法,通过硬件感知成本建模选择每层和每个头的最佳稀疏计算策略。 在确定最佳配置后,我们将同一层内共享相同注意力策略的头融合在一起,从而提高推理效率。 集成到最先进的vDiT模型(CogVideoX1.5、HunyuanVideo和Wan2.1)中,Sparse-vDiT分别实现了2.09$\times$、2.38$\times$和 1.67$\times$的理论浮点运算(FLOP)减少,以及实际推理加速比1.76$\times$、1.85$\times$和 1.58$\times$,同时保持高视觉保真度,PSNR值达到24.13、27.09 和 22.59。 我们的工作表明,vDiTs中的潜在结构稀疏性可以系统地用于长视频合成。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.