计算机科学 > 硬件架构
[提交于 2025年7月4日
]
标题: 蜂鸟:一种在嵌入式FPGA上的更小更快的大型语言模型加速器
标题: Hummingbird: A Smaller and Faster Large Language Model Accelerator on Embedded FPGA
摘要: 在嵌入式设备上部署大型语言模型(LLMs)由于LLMs的高计算和内存需求以及此类环境中的有限硬件资源,仍然是一个重要的研究挑战。 尽管嵌入式FPGA在传统深度神经网络中表现出性能和能效,但其在LLM推理方面的潜力尚未得到充分探索。 最近将LLMs部署到FPGAs的努力主要依赖于大型且昂贵的云级硬件,并且仅在相对较小的LLMs上显示出有希望的结果,限制了它们的实际应用。 在本工作中,我们提出了Hummingbird,这是一种专为嵌入式FPGAs上的LLM推理设计的新型FPGA加速器。 Hummingbird更小,针对如KV260和ZCU104这样的嵌入式FPGA,相比现有研究分别实现了67%的LUT、39%的DSP和42%的功耗节省。 Hummingbird更强,针对LLaMA3-8B并支持更长的上下文,通过卸载策略克服了嵌入式FPGAs通常的4GB内存限制。 最后, Hummingbird更快,在KV260和ZCU104上分别实现了4.8个标记/秒和8.6个标记/秒的速度,模型带宽利用率达到93-94%,超过了先前LLaMA2-7B的4.9个标记/秒和84%带宽利用率基线。 我们进一步通过在成本优化的Spartan UltraScale FPGA上部署Hummingbird,证明了工业应用的可行性,为边缘端提供了负担得起的LLM解决方案。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.