Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2003.00822

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2003.00822 (cs)
[提交于 2020年2月26日 ]

标题: 带有精度分批的量化神经网络推理

标题: Quantized Neural Network Inference with Precision Batching

Authors:Maximilian Lam, Zachary Yedidia, Colby Banbury, Vijay Janapa Reddi
摘要: 我们提出PrecisionBatching,这是一种量化推理算法,可在不重新训练或重新校准的情况下,加快在传统硬件平台上低比特宽度的神经网络执行速度。 PrecisionBatching将神经网络分解为单独的比特层,并使用快速的1位操作进行累积,同时保持激活值的全精度。 PrecisionBatching不仅可以在不重新训练/重新校准的情况下实现低比特宽度(<8位)的量化推理,而且还可以1)使传统硬件平台能够在更细粒度的量化(例如:1-16位执行)上实现推理加速,2)通过将要累积的比特层数作为可调参数暴露出来,在运行时实现准确性和加速之间的权衡。 在各种应用(MNIST、语言建模、自然语言推理)和神经网络架构(全连接、RNN、LSTM)中,PrecisionBatching在GPU上的端到端加速超过8倍,误差范围小于1%的全精度基线,其性能在相同误差容限下比传统的8位量化推理高出1.5倍至2倍。
摘要: We present PrecisionBatching, a quantized inference algorithm for speeding up neural network execution on traditional hardware platforms at low bitwidths without the need for retraining or recalibration. PrecisionBatching decomposes a neural network into individual bitlayers and accumulates them using fast 1-bit operations while maintaining activations in full precision. PrecisionBatching not only facilitates quantized inference at low bitwidths (< 8 bits) without the need for retraining/recalibration, but also 1) enables traditional hardware platforms the ability to realize inference speedups at a finer granularity of quantization (e.g: 1-16 bit execution) and 2) allows accuracy and speedup tradeoffs at runtime by exposing the number of bitlayers to accumulate as a tunable parameter. Across a variety of applications (MNIST, language modeling, natural language inference) and neural network architectures (fully connected, RNN, LSTM), PrecisionBatching yields end-to-end speedups of over 8x on a GPU within a < 1% error margin of the full precision baseline, outperforming traditional 8-bit quantized inference by over 1.5x-2x at the same error tolerance.
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV); 性能 (cs.PF)
引用方式: arXiv:2003.00822 [cs.LG]
  (或者 arXiv:2003.00822v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2003.00822
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Maximilian Lam [查看电子邮件]
[v1] 星期三, 2020 年 2 月 26 日 19:34:11 UTC (107 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2020-03
切换浏览方式为:
cs
cs.CV
cs.PF

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号