计算机科学 > 人工智能
[提交于 2025年8月8日
]
标题: 推动AI-PC上LLM推理的边界
标题: Pushing the Envelope of LLM Inference on AI-PC
摘要: 超低比特大语言模型(1/1.58/2比特)的出现,使用相同的模型大小就能达到全精度模型的困惑度和最终任务性能,正在为资源受限环境(如边缘设备和AI PC)带来大语言模型推理的新时代。 尽管这些量化进展在延迟、内存、吞吐量和能耗方面承诺了更具成本效益的模型,但用于部署它们的最新状态推理运行时(例如bitnet.cpp)的计算效率仍鲜有探索。 在本工作中,我们采用自下而上的方法:我们首先设计并实现了针对现代CPU优化的1比特和2比特微内核,在多种CPU平台上实现了峰值计算效率。 我们将这些微内核集成到最先进的大语言模型推理框架中,即PyTorch-TPP,并展示了使用2比特模型的端到端推理结果,其性能比当前最先进的运行时bitnet.cpp高出最多2.2倍,并且与16比特模型推理相比,速度提升了最多7倍。 我们的优化运行时推进了AI PC和边缘设备上的大语言模型推理水平,为超低比特大语言模型的高效部署铺平了道路。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.