计算机科学 > 分布式、并行与集群计算
[提交于 2025年8月13日
]
标题: 基于FFT的块三角托普利茨矩阵GPU加速算法的混合精度性能可移植性
标题: Mixed-Precision Performance Portability of FFT-Based GPU-Accelerated Algorithms for Block-Triangular Toeplitz Matrices
摘要: 在领导级计算设施中展示的硬件多样性,以及当今GPU在低精度计算时表现出的巨大性能提升,为科学HPC工作流采用混合精度算法和性能可移植性模型提供了强有力的激励。 我们提出了一种实时框架,使用Hipify实现性能可移植性,并将其应用于FFTMatvec——一个使用块三角Toeplitz矩阵计算矩阵-向量乘积的HPC应用。 我们的方法使FFTMatvec(最初是一个仅CUDA的应用程序)能够在AMD GPU上无缝运行,并表现出优异的性能。 针对AMD GPU的性能优化直接集成到开源rocBLAS库中,保持应用程序代码不变。 然后我们提出了一个动态混合精度框架用于FFTMatvec;帕累托前沿分析确定了对于所需误差容限的最佳混合精度配置。 结果展示了AMD Instinct MI250X、MI300X和新发布的MI355X GPU。 具有性能可移植性的混合精度FFTMatvec已在OLCF Frontier超级计算机上扩展到2048个GPU。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.