电气工程与系统科学 > 图像与视频处理
[提交于 2025年1月28日
(v1)
,最后修订 2025年2月13日 (此版本, v2)]
标题: 具有k尺度量化和重新参数化的视觉Mamba的后训练量化
标题: Post-Training Quantization for Vision Mamba with k-Scaled Quantization and Reparameterization
摘要: Mamba 模型采用结构化状态空间模型(SSM),具有线性时间复杂度,并展现出显著潜力。Vision Mamba(ViM)通过引入双向 SSM 和补丁嵌入扩展了这一框架至视觉任务,在性能上超过了基于 Transformer 的模型。 尽管模型量化对于高效计算至关重要,但现有工作仅关注原始的 Mamba 模型,尚未将其应用于 ViM。此外,它们忽略了量化 SSM 层,而该层是 Mamba 的核心部分,由于其固有结构,粗暴的量化可能导致严重的误差传播。 本文专注于 ViM 的后训练量化(PTQ)。我们通过三种核心技术解决了相关问题:1)针对线性和卷积层的 k-scale 标记量化方法,2)简化隐藏状态量化的重新参数化技术,以及 3)一种通过整合操作减少计算开销的因素确定方法。通过这些方法,可以减轻由 PTQ 引发的误差。 ImageNet-1k 上的实验结果显示,由于 PTQ 导致的准确率下降仅为 0.8%-1.2%,这凸显了我们方法的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.