计算机科学 > 分布式、并行与集群计算
[提交于 2025年7月2日
]
标题: SAKURAONE:通过日本私营部门的高性能计算投资推动透明和开放的人工智能平台
标题: SAKURAONE: Empowering Transparent and Open AI Platforms through Private-Sector HPC Investment in Japan
摘要: SAKURAONE是由SAKURA互联网研究中心开发和运营的托管高性能计算(HPC)集群。它强化了“KOKARYOKU PHY”配置的裸金属GPU服务器,并被设计为针对先进工作负载(包括大型语言模型(LLM)训练)优化的集群计算资源。在TOP500列表的ISC 2025版中,SAKURAONE根据其高性能线性代数包(HPL)得分位列世界第\textbf{49届},展示了其全球竞争力。特别是,它是第\textbf{仅有的前100名系统}个采用基于\textbf{800千兆以太网(千兆以太网)}的完全开放网络堆栈和\textbf{SONiC(用于云中开放网络的软件)}操作系统的系统,突显了开放和供应商中立技术在大规模HPC基础设施中的可行性。SAKURAONE在HPL基准测试(Rmax)上实现了持续性能33.95~PFLOP/s,在高性能共轭梯度(HPCG)基准测试上实现了396.295~TFLOP/s。对于针对人工智能应用代表性低精度工作负载的HPL-MxP基准测试,SAKURAONE使用FP8精度实现了惊人的339.86~PFLOP/s。该系统由100个计算节点组成,每个节点配备八个NVIDIA H100 GPU。它由一个全闪存Lustre存储子系统支持,总物理容量为2~拍字节,提供高吞吐量和低延迟的数据访问。节点间通信通过基于Rail-Optimized拓扑的全分叉带宽互连实现,其中叶层和脊层通过800~GbE链路互连。这种拓扑结构结合RoCEv2(RDMA over Converged Ethernet版本2),实现了高速、无损的数据传输,并缓解了大规模并行工作负载中的通信瓶颈。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.