计算机科学 > 分布式、并行与集群计算
[提交于 2025年6月28日
]
标题: Libra:协同CUDA和张量核心实现高性能稀疏矩阵乘法
标题: Libra: Synergizing CUDA and Tensor Cores for High-Performance Sparse Matrix Multiplication
摘要: 稀疏矩阵乘法运算符(即SpMM和SDDMM)在深度学习和科学计算中被广泛使用。现代加速器通常配备张量核心和CUDA核心以加速稀疏运算符。前者提供了卓越的计算能力,但仅适用于结构化矩阵乘法,而后者性能相对较低,但具有更高的编程灵活性。在本工作中,我们发现单独利用一种资源会导致稀疏矩阵乘法性能不佳,这是由于它们各自的限制。为此,我们提出了Libra,一种系统性方法,能够在CUDA和张量核心之间实现协同计算,以达到稀疏矩阵乘法的最佳性能。具体来说,我们提出了一种二维感知的工作负载分配策略,以找出不同稀疏运算符的任务映射最佳点,同时利用张量核心的高性能和CUDA核心的低计算冗余。此外,Libra还包含了针对异构计算的系统优化,包括混合负载平衡、精细优化的内核实现以及GPU加速的预处理。在H100和RTX 4090 GPU上的大量实验结果表明,与最先进的方法相比,Libra在DTC-SpMM上平均快3.1倍(最高达9.23倍),在端到端图神经网络应用中快2.9倍(最高达3.9倍)。Libra通过充分利用GPU上的异构计算资源,为稀疏运算符加速开辟了新的视角。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.