计算机科学 > 硬件架构
[提交于 2025年7月4日
]
标题: 一种用于高效GEMMs的灵活指令集架构
标题: A Flexible Instruction Set Architecture for Efficient GEMMs
摘要: 通用矩阵乘法(GEMMs)在高性能计算和深度学习工作负载中经常出现。 通常,高端CPU使用单指令多数据(SIMD)或向量指令集架构(ISAs)来加速GEMM工作负载。 由于这些ISAs在运行GEMM工作负载时,尤其是在处理小矩阵、高矩阵或瘦矩阵时面临重大问题,近年来主要硬件供应商已提出并实现了矩阵ISAs。 尽管这些矩阵ISAs在运行GEMMs时比其SIMD/向量 counterparts 有更高的吞吐量,但它们是刚性解决方案,无法动态适应应用特定的方面,如数据格式。 本文表明,当运行最常用的卷积和转换器模型时,最先进的矩阵ISAs表现不佳。 本文提出了矩阵块扩展(MTE),这是第一个完全将指令集架构与微架构解耦并与现有向量ISAs无缝交互的矩阵ISA。 MTE的实现开销很小,因为它只需要几个额外的指令和一个64位控制状态寄存器(CSR)来保持其状态。 具体来说,MTE可以i)在三个维度M、N和K上对GEMMs进行向量化;ii)利用现有向量寄存器文件的容量;iii)将块形状与底层微架构解耦。 MTE在最佳现有矩阵ISA上的速度提高了1.35倍。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.