计算机科学 > 机器学习
[提交于 2024年12月9日
]
标题: FP=xINT:一种用于训练后量化的小比特级数展开算法
标题: FP=xINT:A Low-Bit Series Expansion Algorithm for Post-Training Quantization
摘要: 后训练量化(PTQ)将预训练的全精度(FP)模型转换为量化版本,而无需训练。 虽然现有方法减少了大小和计算成本,但由于量化噪声,在极低设置下它们也会显著降低性能和量化效率。 我们引入了一个深度模型系列扩展框架来解决这个问题,使得在没有校准集或微调的情况下能够快速且准确地近似未量化的模型。 这是首次将系列扩展用于神经网络量化。 具体来说,我们的方法将FP模型扩展为多个低比特基础模型。 为了确保准确量化,我们在不同粒度(张量、层、模型)上开发了低比特基础模型扩展,并理论上确认它们收敛到密集模型,从而恢复FP模型的准确性。 此外,我们在低比特扩展中的同构模型之间设计了AbelianAdd/Mul操作,形成一个Abelian群以确保操作的并行性和交换性。 实验表明,我们的算法在低比特设置中实现了最先进的性能;例如,ResNet-50的4比特量化超过了原始准确性,达到77.03%。 代码将公开。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.