Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.08531

帮助 | 高级搜索

计算机科学 > 性能

arXiv:2508.08531 (cs)
[提交于 2025年8月12日 ]

标题: 在苹果硅芯片上对大型语言模型推理的分析:量化视角

标题: Profiling Large Language Model Inference on Apple Silicon: A Quantization Perspective

Authors:Afsara Benazir, Felix Xiaozhu Lin
摘要: 当前硬件效率领域对Apple Silicon的系统性理解仍然缺乏;研究重点主要集中在加速GPU以在CUDA设备上进行大规模训练或推理。 本文研究了Apple Silicon独特的内存架构,该架构提供了集成CPU和GPU内存的统一内存,并探讨了其对设备端大型语言模型推理的影响。 我们通过直接进行延迟和吞吐量比较基准测试,解开了关于Apple Silicon在设备端推理方面是否比NVIDIA GPU等竞争对手高效的误解。 我们通过分析低级硬件指标——ALU利用率、内存带宽、缓冲区使用情况、缓存驻留等来解释它们之间的性能差距。 我们在运行时对性能瓶颈进行了深入分析,例如解量化开销、计算吞吐量和内存带宽。 我们驳斥了关于大型语言模型推理的现有错误说法,例如将模型压缩到较低位精度是跨所有硬件平台实现更快推理的既定承诺。 我们发现,大容量统一内存使Apple Silicon在超大规模语言模型方面相对于NVIDIA GPU既具有成本效益又高效。 我们在5个硬件测试平台上的大规模评估包括三种Apple M系列设备:M2 Ultra、M2 Max和M4 Pro,以及两种NVIDIA GPU:NVIDIA RTX A6000,一个由2xNVIDIA RTX A6000组成的多GPU设置,5种模型规模,参数范围从8B到405B,以及14种量化方案,从而了解Apple Silicon在设备端大型语言模型推理范式中的定位。 我们的分析揭示了多种资源相互依赖关系和意外发现,同时量化了已有的见解。 据我们所知,这项研究首次尝试对设备端推理的Apple Silicon进行全面的表征和分析。
摘要: A systematic understanding of Apple Silicon is lacking in the current landscape of hardware efficiency; research focus is largely centered on accelerating GPUs for large-scale training or inference on CUDA devices. This paper investigates Apple Silicon's unique memory architecture that offers a unified memory integrating CPU and GPU memory and its implications for on-device LLM inference. We decipher myths about whether Apple Silicon is efficient for on-device inference compared to competitors such as NVIDIA GPUs by directly conducting latency and throughput comparison benchmarks. We explain the performance gap between them through profiling low level hardware metrics - ALU utilization, memory bandwidth, buffer usage, cache residency etc. at runtime. We draw several insights regarding performance bottlenecks such as dequantization overhead, compute throughput and memory bandwidth. We debunk existing false claims regarding large language model inference such as compressing models to lower bit precision is a defacto promise for faster inference across all hardware platforms. We find that the large unified memory enables Apple Silicon to be both cost effective and efficient against NVIDIA GPUs for ultra large language models. Our large scale evaluation on 5 hardware testbeds incorporating three Apple M-series devices: M2 Ultra, M2 Max and M4 Pro and two NVIDIA GPUs: NVIDIA RTX A6000, a multi GPU setup with 2xNVIDIA RTX A6000, 5 model scales ranging from 8B to 405B parameters and 14 quantization schemes gives an understanding of how Apple Silicon fits within the paradigm of on-device LLM inference. Our analysis reveals multiple resource interdependencies and unexpected findings, while also quantifying established insights. To the best of our knowledge, this study makes the first attempt to present a thorough characterization and analysis of Apple Silicon for on-device inference.
主题: 性能 (cs.PF)
引用方式: arXiv:2508.08531 [cs.PF]
  (或者 arXiv:2508.08531v1 [cs.PF] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.08531
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Afsara Benazir [查看电子邮件]
[v1] 星期二, 2025 年 8 月 12 日 00:06:34 UTC (5,606 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.PF
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号