计算机科学 > 硬件架构
[提交于 2025年7月2日
]
标题: SD-Acc:通过相位感知采样和硬件协同优化加速稳定扩散
标题: SD-Acc: Accelerating Stable Diffusion through Phase-aware Sampling and Hardware Co-Optimizations
摘要: 扩散模型的出现显著推动了生成式AI的发展,提高了图像和视频生成的质量、真实感和创造力。 其中,Stable Diffusion(StableDiff)作为文本到图像生成的关键模型,是下一代多模态算法的基础。 然而,其高计算和内存需求阻碍了推理速度和能效。 为解决这些挑战,我们识别出三个核心问题:(1)密集且常常冗余的计算,(2)涉及卷积和注意力机制的异构操作,(3)多样化的权重和激活尺寸。 我们提出了SD-Acc,一种新颖的算法与硬件协同优化框架。 在算法层面,我们观察到某些去噪阶段的高层特征表现出显著相似性,从而可以进行近似计算。 利用这一点,我们提出了一种自适应、阶段感知的采样策略,以减少计算和内存负载。 该框架根据StableDiff模型和用户需求自动平衡图像质量和复杂度。 在硬件层面,我们设计了一种以地址为中心的数据流,以高效处理简单脉动阵列内的异构操作。 我们通过两级流架构和可重构向量处理单元解决了非线性函数的瓶颈问题。 此外,我们通过结合针对StableDiff工作负载的动态重用和算子融合,实现了自适应数据流优化,显著减少了内存访问。 在多个StableDiff模型中,我们的方法在不牺牲图像质量的情况下,计算需求最多减少了3倍。 结合我们优化的硬件加速器,SD-Acc比传统的CPU和GPU实现具有更高的速度和能效。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.