计算机科学 > 硬件架构
[提交于 2025年7月18日
]
标题: 高效的大规模语言模型推理:带宽、计算、同步和容量是您所需的一切
标题: Efficient LLM Inference: Bandwidth, Compute, Synchronization, and Capacity are all you need
摘要: 本文提出了对基于变压器的大语言模型(LLM)推理的极限研究,重点分析了分布式推理系统中由内存带宽、内存容量和同步开销带来的基本性能瓶颈。我们开发了一个与硬件无关的性能模型,抽象掉了实现细节,使得能够分析当前和未来不久的多种硬件技术。我们的分析涵盖了目前在AI加速器如GPU和TPU中使用的HBM3内存技术,以及基于先进HBM4和先进3D堆叠DRAM技术的系统。它还涵盖了基于SRAM的设计和从具有不同芯片数量的分布式集群到晶圆级集成的扩展技术。我们对自回归解码的关键发现是:i) 服务LLM需要每台服务器有数百GB的内存来服务一个模型实例;ii) 高内存带宽对于高用户吞吐量至关重要;iii) 为了实现集体通信而暴露的同步延迟必须在1微秒左右,否则它们会使内存带宽无效;iv) 在以吞吐量每成本或每瓦特衡量的系统级效率方面,基于DRAM的设计具有根本性的优势;v) 硬件设计可以轻松达到2000+用户标记/秒,但要达到10,000+标记/秒将需要更小的模型、更小的上下文或其他形式的算法进步。这项研究为LLM推理的基本性能限制提供了有价值的见解,突显了未来硬件进步的潜在好处,并指导了LLM部署策略的优化。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.