计算机科学 > 分布式、并行与集群计算
[提交于 2025年7月2日
]
标题: 演进高性能计算服务以在HPE Cray EX上支持机器学习工作负载
标题: Evolving HPC services to enable ML workloads on HPE Cray EX
摘要: 阿尔卑斯研究基础设施大规模采用GH200技术,配备10,752块GPU。 访问阿尔卑斯为人工智能(AI)和机器学习(ML)领域的研究人员提供了显著的计算优势。 虽然阿尔卑斯服务于广泛的科学社区,但传统的HPC服务单独来看不足以满足ML社区的动态需求。 本文介绍了将HPC服务功能扩展以更好地支持ML工作负载的初步研究。 我们识别了自阿尔卑斯早期访问阶段(2023年)以来瑞士AI社区所观察到的关键挑战和差距,并提出了几种技术增强方案。 这些包括一个用户环境,旨在促进ML工作负载对HPC的采用,平衡性能与灵活性;一个在开发过程中快速评估ML应用性能的工具;可观测性功能和数据产品,用于检查正在进行的大规模ML工作负载;一个简化分配节点计算就绪性验证的工具;一个服务平面基础设施,用于部署各种类型的工作负载,包括支持和推理服务;以及一个针对ML工作负载特定需求定制的存储基础设施。 这些增强旨在促进ML工作负载在HPC系统上的执行,提高系统的易用性和弹性,并更好地满足ML社区的需求。 我们还讨论了当前在安全方面的做法。 本文最后将这些提议置于我们这类HPC基础设施所服务的社区变化的更广泛背景下。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.