计算机科学 > 性能
[提交于 2025年8月12日
]
标题: 在苹果硅芯片上对大型语言模型推理的分析:量化视角
标题: Profiling Large Language Model Inference on Apple Silicon: A Quantization Perspective
摘要: 当前硬件效率领域对Apple Silicon的系统性理解仍然缺乏;研究重点主要集中在加速GPU以在CUDA设备上进行大规模训练或推理。 本文研究了Apple Silicon独特的内存架构,该架构提供了集成CPU和GPU内存的统一内存,并探讨了其对设备端大型语言模型推理的影响。 我们通过直接进行延迟和吞吐量比较基准测试,解开了关于Apple Silicon在设备端推理方面是否比NVIDIA GPU等竞争对手高效的误解。 我们通过分析低级硬件指标——ALU利用率、内存带宽、缓冲区使用情况、缓存驻留等来解释它们之间的性能差距。 我们在运行时对性能瓶颈进行了深入分析,例如解量化开销、计算吞吐量和内存带宽。 我们驳斥了关于大型语言模型推理的现有错误说法,例如将模型压缩到较低位精度是跨所有硬件平台实现更快推理的既定承诺。 我们发现,大容量统一内存使Apple Silicon在超大规模语言模型方面相对于NVIDIA GPU既具有成本效益又高效。 我们在5个硬件测试平台上的大规模评估包括三种Apple M系列设备:M2 Ultra、M2 Max和M4 Pro,以及两种NVIDIA GPU:NVIDIA RTX A6000,一个由2xNVIDIA RTX A6000组成的多GPU设置,5种模型规模,参数范围从8B到405B,以及14种量化方案,从而了解Apple Silicon在设备端大型语言模型推理范式中的定位。 我们的分析揭示了多种资源相互依赖关系和意外发现,同时量化了已有的见解。 据我们所知,这项研究首次尝试对设备端推理的Apple Silicon进行全面的表征和分析。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.