计算机科学 > 性能
[提交于 2025年8月1日
(v1)
,最后修订 2025年8月9日 (此版本, v2)]
标题: DGEMM 不使用 FP64 算法 -- 使用 FP64 模拟和 FP8 张量核心的 Ozaki 方案
标题: DGEMM without FP64 Arithmetic -- Using FP64 Emulation and FP8 Tensor Cores with Ozaki Scheme
摘要: 随着对AI计算的需求迅速增加,越来越多的硬件被开发出来以高效执行此类工作负载所需的低精度矩阵乘法。 然而,由于精度要求,这些操作通常不能直接应用于科学计算。 Ozaki方案——由Ozaki等人于2012年提出的一种精确的矩阵乘法方法——使得可以使用低精度矩阵乘法单元(如FP16 Tensor Cores)进行FP64矩阵乘法(DGEMM)。 这种方法随后被扩展以利用整数运算,与基于浮点数的实现相比,计算成本更低。 事实上,它在配备为AI工作负载设计的快速INT8 Tensor Cores的GPU上实现了比硬件FP64操作更高的性能。 然而,最近的硬件趋势转向提升低精度浮点运算(如FP8)的性能,而不是整数运算。 受这一转变的激励,本研究重新审视了Ozaki方案中低精度浮点运算的使用。 具体而言,我们探讨了使用FP8 Tensor Cores进行DGEMM。 此外,对于支持非常缓慢或没有FP64运算的处理器,我们还考虑了基于整数运算的FP64模拟。 此外,我们探索了在内积方向上使用分块以加速基于FP16的实现。 我们通过在NVIDIA Blackwell架构GPU上评估性能来证明这些方法的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.