计算机科学 > 分布式、并行与集群计算
[提交于 2025年6月28日
]
标题: TriADA:用于加速三维离散变换的大规模并行三线性矩阵-张量乘加算法和设备架构
标题: TriADA: Massively Parallel Trilinear Matrix-by-Tensor Multiply-Add Algorithm and Device Architecture for the Acceleration of 3D Discrete Transformations
摘要: 多线性变换在高性能计算(HPC)和人工智能(AI)工作负载中至关重要,其中数据以张量形式表示。 然而,它们的高计算和内存需求随着维度的增加而增加,常常减缓关键任务。 此外,通过增加并行处理单元的数量来扩展计算会显著增加能耗,限制了广泛采用,尤其是在稀疏数据的情况下,这在HPC和AI应用中很常见。 本文介绍了三线性算法和同构算法设备架构(TriADA),以解决这些挑战,并具有以下创新:(1)一种大规模并行、低秩算法,用于计算一组三线性(3D)离散正交变换(3D-DXTs),这是更一般的三模式矩阵乘张量(3D-GEMT)的特殊情况;(2)一种基于外积的新GEMM内核,具有解耦流式活动内存,专门设计用于加速3D-GEMT操作;(3)一种与所提出算法同构的,完全分布的三维网格互连处理单元或单元网络,具有无坐标、数据驱动的局部处理活动,与问题规模无关;(4)一种弹性稀疏外积(ESOP)方法,避免了具有零值操作数的不必要的计算和通信操作,从而提高了能效、计算精度和稳定性。 TriADA能够在时间步数线性的情况下执行各种三线性变换,具有超立方体算术复杂度。 TriADA的大规模并行、可扩展和节能架构非常适合加速多线性张量操作,这是AI和HPC工作负载中最耗资源的部分。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.