Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.22714

帮助 | 高级搜索

计算机科学 > 分布式、并行与集群计算

arXiv:2506.22714 (cs)
[提交于 2025年6月28日 ]

标题: Libra:协同CUDA和张量核心实现高性能稀疏矩阵乘法

标题: Libra: Synergizing CUDA and Tensor Cores for High-Performance Sparse Matrix Multiplication

Authors:Jinliang Shi, Shigang Li, Youxuan Xu, Xueying Wang, Rongtian Fu, Zhi Ma, Tong Wu
摘要: 稀疏矩阵乘法运算符(即SpMM和SDDMM)在深度学习和科学计算中被广泛使用。现代加速器通常配备张量核心和CUDA核心以加速稀疏运算符。前者提供了卓越的计算能力,但仅适用于结构化矩阵乘法,而后者性能相对较低,但具有更高的编程灵活性。在本工作中,我们发现单独利用一种资源会导致稀疏矩阵乘法性能不佳,这是由于它们各自的限制。为此,我们提出了Libra,一种系统性方法,能够在CUDA和张量核心之间实现协同计算,以达到稀疏矩阵乘法的最佳性能。具体来说,我们提出了一种二维感知的工作负载分配策略,以找出不同稀疏运算符的任务映射最佳点,同时利用张量核心的高性能和CUDA核心的低计算冗余。此外,Libra还包含了针对异构计算的系统优化,包括混合负载平衡、精细优化的内核实现以及GPU加速的预处理。在H100和RTX 4090 GPU上的大量实验结果表明,与最先进的方法相比,Libra在DTC-SpMM上平均快3.1倍(最高达9.23倍),在端到端图神经网络应用中快2.9倍(最高达3.9倍)。Libra通过充分利用GPU上的异构计算资源,为稀疏运算符加速开辟了新的视角。
摘要: Sparse matrix multiplication operators (i.e., SpMM and SDDMM) are widely used in deep learning and scientific computing. Modern accelerators are commonly equipped with Tensor cores and CUDA cores to accelerate sparse operators. The former brings superior computing power but only for structured matrix multiplication, while the latter has relatively lower performance but with higher programming flexibility. In this work, we discover that utilizing one resource alone leads to inferior performance for sparse matrix multiplication, due to their respective limitations. To this end, we propose Libra, a systematic approach that enables synergistic computation between CUDA and Tensor cores to achieve the best performance for sparse matrix multiplication. Specifically, we propose a 2D-aware workload distribution strategy to find out the sweet point of task mapping for different sparse operators, leveraging both the high performance of Tensor cores and the low computational redundancy on CUDA cores. In addition, Libra incorporates systematic optimizations for heterogeneous computing, including hybrid load-balancing, finely optimized kernel implementations, and GPU-accelerated preprocessing. Extensive experimental results on H100 and RTX 4090 GPUs show that Libra outperforms the state-of-the-art by on average 3.1x (up to 9.23x) over DTC-SpMM and 2.9x (up to 3.9x) for end-to-end GNN applications. Libra opens up a new perspective for sparse operator acceleration by fully exploiting the heterogeneous computing resources on GPUs.
主题: 分布式、并行与集群计算 (cs.DC) ; 机器学习 (cs.LG); 性能 (cs.PF)
ACM 类: C.1.4; I.2.11
引用方式: arXiv:2506.22714 [cs.DC]
  (或者 arXiv:2506.22714v1 [cs.DC] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.22714
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Jinliang Shi [查看电子邮件]
[v1] 星期六, 2025 年 6 月 28 日 01:50:13 UTC (4,082 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs.DC
cs.LG
cs.PF

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号