计算机科学 > 性能
[提交于 2021年3月4日
(v1)
,最后修订 2021年7月30日 (此版本, v2)]
标题: ECM模型在A64FX上对SpMV和格点QCD的性能调优
标题: ECM modeling and performance tuning of SpMV and Lattice QCD on A64FX
摘要: A64FX CPU可以说是迄今为止最强大的基于Arm的处理器设计。 尽管它是一款传统的基于缓存的多核处理器,但其峰值性能和内存带宽可与加速器设备相媲美。 对于希望充分利用其全部潜力的开发人员来说,对其性能特征有很好的理解至关重要。 我们通过对用于富士通FX1000超级计算机中的A64FX的架构分析,达到了可以构建执行-缓存-内存(ECM)性能模型的详细程度,该模型适用于稳态循环。 在此过程中,我们识别出了一些架构上的特点,这些特点指出了可行的通用优化策略。 在使用简单的流式循环验证了模型之后,我们将获得的洞察应用于稀疏矩阵向量乘法(SpMV)和量子色动力学(QCD)中的域壁(DW)内核。 对于SpMV,我们展示了为什么在这种架构上CRS矩阵存储格式不是一个好的实际选择,并且如何通过SELL-C-sigma格式实现带宽饱和。 对于DW内核,我们提供了缓存重用分析,并展示了复杂数组的数据布局选择如何在这种情况下也能实现内存带宽饱和。 与最先进的高端Intel Cascade Lake AP和Nvidia V100系统的比较使A64FX的能力得以体现。 我们还探索了利用Fugaku系统提供的调优选项进行功耗优化的潜力,在SpMV中实现了约31%的能量节省,在DW中实现了约18%的能量节省。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.