计算机科学 > 分布式、并行与集群计算
[提交于 2025年6月30日
]
标题: 面向构建私有大语言模型:在苹果硅芯片上探索专家并行的多节点混合模型
标题: Towards Building Private LLMs: Exploring Multi-Node Expert Parallelism on Apple Silicon for Mixture-of-Experts Large Language Model
摘要: 大型语言模型(LLMs)通过OpenAI的ChatGPT、Meta的Llama和Databricks的DBRX等显著进展,彻底改变了人工智能(AI)。 本文解决了在构建用于个人或小团体服务的私有LLM系统时遇到的成本和可扩展性挑战,正如Apple Intelligence所追求的那样。 建立了一个配备Apple M2 Ultra芯片的Mac Studio集群,作为托管和加速具有专家混合(MoE)架构的预训练DBRX模型的成本效益解决方案。 我们的性能分析显示,在两到四个机器节点上并行执行模型的专家显著减少了推理时间。 我们发现专家的计算时间与交换其输出的通信时间相当,强调了网络延迟而非带宽的重要性。 我们还观察到由于Apple软件堆栈的内存管理逻辑而产生的显著管理开销。 基于这些发现,我们开发了优化方案以消除内存管理开销。 结果表明,Mac Studio集群比最先进的配备NVIDIA H100 GPU的AI超级计算机成本效率高1.15倍。 此外,我们构建了一个性能模型,用于估计不同配置下的系统性能,该模型为设计私有LLM系统提供了有价值的见解。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.