计算机科学 > 分布式、并行与集群计算
[提交于 2025年6月27日
]
标题: SiPipe:填补CPU-GPU利用率差距以实现高效流水线并行大语言模型推理
标题: SiPipe: Bridging the CPU-GPU Utilization Gap for Efficient Pipeline-Parallel LLM Inference
摘要: 随着大型语言模型(LLMs)的推理工作负载规模扩大以满足不断增长的用户需求,管道并行性(PP)已成为多GPU部署中广泛采用的策略,特别是在跨节点设置中,以提高键值(KV)缓存容量和推理吞吐量。 然而,PP由于三种类型的执行气泡——负载不平衡、阶段内和阶段间——导致固有的低效性,限制了管道的饱和度。 我们提出了SiPipe,一种异构管道设计,通过利用未充分利用的CPU资源来卸载辅助计算和通信,从而提高吞吐量。 SiPipe结合了三种关键技术——CPU采样、令牌安全执行模型和结构感知传输——以减轻管道气泡并提高执行效率。 在多种LLMs上,与相同PP配置下的最先进vLLM相比,SiPipe实现了高达2.1倍的更高吞吐量,每令牌延迟降低了43%,以及高达23%的平均GPU利用率,证明了其在LLMs和部署场景中的通用性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.