Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.12933

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2507.12933 (cs)
[提交于 2025年7月17日 ]

标题: DMQ:针对训练后量化扩散模型的异常值分析

标题: DMQ: Dissecting Outliers of Diffusion Models for Post-Training Quantization

Authors:Dongyeun Lee, Jiwan Hur, Hyounguk Shon, Jae Young Lee, Junmo Kim
摘要: 扩散模型在图像生成方面取得了显著的成功,但伴随着显著的计算成本,在资源受限的环境中部署时面临挑战。最近的训练后量化(PTQ)方法试图通过关注扩散模型的迭代特性来缓解这一问题。然而,这些方法常常忽略异常值,导致在低位宽下性能下降。在本文中,我们提出了一种DMQ,结合了学习等效缩放(LES)和通道级二进制幂缩放(PTS),以有效解决这些挑战。学习等效缩放优化通道级缩放因子,以在权重和激活之间重新分配量化难度,减少总体量化误差。认识到早期去噪步骤尽管具有小的量化误差,但由于误差累积,对最终输出至关重要,我们引入了一个自适应时间步 weighting 方案,在学习过程中优先考虑这些关键步骤。此外,识别出如跳跃连接等层表现出高的通道间方差,我们为激活引入了通道级二进制幂缩放。为了即使在小校准集的情况下也能确保PTS因子的鲁棒选择,我们引入了一种投票算法来提高可靠性。大量实验表明,我们的方法显著优于现有工作,特别是在低位宽如W4A6(4位权重,6位激活)和W4A8的情况下,保持了高质量的图像生成和模型稳定性。代码可在https://github.com/LeeDongYeun/dmq获取。
摘要: Diffusion models have achieved remarkable success in image generation but come with significant computational costs, posing challenges for deployment in resource-constrained environments. Recent post-training quantization (PTQ) methods have attempted to mitigate this issue by focusing on the iterative nature of diffusion models. However, these approaches often overlook outliers, leading to degraded performance at low bit-widths. In this paper, we propose a DMQ which combines Learned Equivalent Scaling (LES) and channel-wise Power-of-Two Scaling (PTS) to effectively address these challenges. Learned Equivalent Scaling optimizes channel-wise scaling factors to redistribute quantization difficulty between weights and activations, reducing overall quantization error. Recognizing that early denoising steps, despite having small quantization errors, crucially impact the final output due to error accumulation, we incorporate an adaptive timestep weighting scheme to prioritize these critical steps during learning. Furthermore, identifying that layers such as skip connections exhibit high inter-channel variance, we introduce channel-wise Power-of-Two Scaling for activations. To ensure robust selection of PTS factors even with small calibration set, we introduce a voting algorithm that enhances reliability. Extensive experiments demonstrate that our method significantly outperforms existing works, especially at low bit-widths such as W4A6 (4-bit weight, 6-bit activation) and W4A8, maintaining high image generation quality and model stability. The code is available at https://github.com/LeeDongYeun/dmq.
评论: 被ICCV 2025接受
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI); 机器学习 (cs.LG)
引用方式: arXiv:2507.12933 [cs.CV]
  (或者 arXiv:2507.12933v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.12933
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Dongyeun Lee [查看电子邮件]
[v1] 星期四, 2025 年 7 月 17 日 09:15:29 UTC (7,420 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.AI
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号