计算机科学 > 硬件架构
[提交于 2025年7月14日
]
标题: Pimba:面向后变压器大型语言模型服务的存储内处理加速
标题: Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving
摘要: Transformer是当今大型语言模型(LLMs)的驱动力,它们是其性能和多功能性的基础。然而,它们的计算和内存成本随着序列长度的增长而增加,这对长上下文推理提出了可扩展性挑战。作为回应,算法界正在探索替代架构,如状态空间模型(SSMs)、线性注意力和循环神经网络(RNNs),我们将其称为后Transformer架构。这种转变带来了一个关键挑战:在统一框架内构建一个能够高效支持Transformer和后Transformer LLMs的服务系统。为了解决这个挑战,我们分析了Transformer和后Transformer LLMs的性能特征。尽管它们在算法上有差异,但由于Transformer中的注意力和后Transformer中的状态更新,在批量推理下,它们都受到内存带宽的根本限制。进一步的分析表明了两个额外的见解:(1) 状态更新操作与注意力不同,会产生较高的硬件成本,使得每bank的PIM加速效率低下,(2) 不同的低精度算术方法提供了不同的准确率-面积权衡,而我们确定微软的MX是帕累托最优选择。基于这些见解,我们设计了Pimba,它是一组状态更新处理单元(SPU),每个SPU在两个bank之间共享,以实现对PIM的交错访问。每个SPU包括一个状态更新处理引擎(SPE),该引擎使用基于MX的量化算术,包含逐元素乘法器和加法器,从而能够高效执行状态更新和注意力操作。我们的评估显示,与LLM优化的GPU和GPU+PIM系统相比,Pimba分别实现了最高3.2倍和2.1倍的标记生成吞吐量。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.