计算机科学 > 机器学习
[提交于 2025年7月29日
]
标题: 基于心室阵列的的状态空间模型加速器
标题: Systolic Array-based Accelerator for State-Space Models
摘要: 序列建模对于人工智能理解时间数据和检测复杂的时间依赖模式至关重要。 虽然循环神经网络(RNNs)、卷积神经网络(CNNs)和Transformer在捕捉长距离依赖关系方面取得了进展,但由于有限的记忆保持能力(固定上下文窗口),它们在处理非常长的序列时难以实现高精度。 状态空间模型(SSMs)利用指数衰减的记忆,使长时间的上下文窗口成为可能,因此它们比循环和基于Transformer的模型更高效地处理非常长的数据序列。 与传统的神经网络模型如CNNs和RNNs不同,基于SSM的模型需要通过连续积分求解微分方程,这使得训练和推理在传统CPU和GPU上既计算密集又内存密集。 在本文中,我们介绍了一种专用硬件加速器EpochCore,用于加速SSMs。 EpochCore基于脉动阵列(SAs),旨在提高基于SSM的模型在长距离序列任务中的能效和吞吐量。 在脉动阵列中,我们提出了一种称为LIMA-PE的多功能处理单元(PE),用于执行传统的和专门的乘加(MAC)操作,以支持传统的DNNs和SSMs。 为了补充EpochCore的微架构,我们提出了一种新的数据流ProDF,它能够高效执行基于SSM的模型。 通过利用LIMA-PE微架构和ProDF,EpochCore在性能上平均提高了250倍,在能效上提高了45倍,相对于传统的基于SA的加速器,面积成本增加了2倍,并且在LRA数据集上的延迟/推理方面相比GPU内核操作提高了约2000倍。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.