计算机科学 > 机器学习
[提交于 2020年2月26日
]
标题: 带有精度分批的量化神经网络推理
标题: Quantized Neural Network Inference with Precision Batching
摘要: 我们提出PrecisionBatching,这是一种量化推理算法,可在不重新训练或重新校准的情况下,加快在传统硬件平台上低比特宽度的神经网络执行速度。 PrecisionBatching将神经网络分解为单独的比特层,并使用快速的1位操作进行累积,同时保持激活值的全精度。 PrecisionBatching不仅可以在不重新训练/重新校准的情况下实现低比特宽度(<8位)的量化推理,而且还可以1)使传统硬件平台能够在更细粒度的量化(例如:1-16位执行)上实现推理加速,2)通过将要累积的比特层数作为可调参数暴露出来,在运行时实现准确性和加速之间的权衡。 在各种应用(MNIST、语言建模、自然语言推理)和神经网络架构(全连接、RNN、LSTM)中,PrecisionBatching在GPU上的端到端加速超过8倍,误差范围小于1%的全精度基线,其性能在相同误差容限下比传统的8位量化推理高出1.5倍至2倍。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.