计算机科学 > 分布式、并行与集群计算
[提交于 2025年1月27日
]
标题: 面向云大语言模型推理中实体碳摊销的衰老感知CPU核心管理
标题: Aging-aware CPU Core Management for Embodied Carbon Amortization in Cloud LLM Inference
摘要: 大规模语言模型(LLM)的广泛采用要求快速扩展云LLM推理集群,导致了嵌入碳排放$-$的积累,这些排放来自制造和供应IT资产$-$,主要集中在推理服务器CPU。 本文深入探讨了云LLM推理可持续增长的挑战,强调在延长使用寿命的情况下对CPU嵌入碳的摊销。 鉴于硅老化带来的可靠性风险,我们提出了一种考虑老化的CPU核心管理技术,以延迟CPU老化效应,使集群操作员能够安全地延长CPU寿命。 我们的技术利用了我们在云LLM推理中发现的CPU利用率不足模式,通过选择性深度闲置和考虑老化的推理任务分配,停止未使用核心的老化并平衡活跃核心的老化。 通过使用真实世界的Azure推理痕迹和微软扩展的LLM集群模拟器进行大量仿真,我们展示了我们的技术在现有方法上的优越性能,通过管理CPU老化效应的p99性能,预计每年嵌入碳排放减少37.67%,CPU利用率不足减少77%,对推理服务质量的影响不到10%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.