Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.22033v1

帮助 | 高级搜索

计算机科学 > 分布式、并行与集群计算

arXiv:2506.22033v1 (cs)
[提交于 2025年6月27日 ]

标题: SiPipe:填补CPU-GPU利用率差距以实现高效流水线并行大语言模型推理

标题: SiPipe: Bridging the CPU-GPU Utilization Gap for Efficient Pipeline-Parallel LLM Inference

Authors:Yongchao He, Bohan Zhao, Zheng Cao
摘要: 随着大型语言模型(LLMs)的推理工作负载规模扩大以满足不断增长的用户需求,管道并行性(PP)已成为多GPU部署中广泛采用的策略,特别是在跨节点设置中,以提高键值(KV)缓存容量和推理吞吐量。 然而,PP由于三种类型的执行气泡——负载不平衡、阶段内和阶段间——导致固有的低效性,限制了管道的饱和度。 我们提出了SiPipe,一种异构管道设计,通过利用未充分利用的CPU资源来卸载辅助计算和通信,从而提高吞吐量。 SiPipe结合了三种关键技术——CPU采样、令牌安全执行模型和结构感知传输——以减轻管道气泡并提高执行效率。 在多种LLMs上,与相同PP配置下的最先进vLLM相比,SiPipe实现了高达2.1倍的更高吞吐量,每令牌延迟降低了43%,以及高达23%的平均GPU利用率,证明了其在LLMs和部署场景中的通用性。
摘要: As inference workloads for large language models (LLMs) scale to meet growing user demand, pipeline parallelism (PP) has become a widely adopted strategy for multi-GPU deployment, particularly in cross-node setups, to improve key-value (KV) cache capacity and inference throughput. However, PP suffers from inherent inefficiencies caused by three types of execution bubbles-load-imbalance, intra-stage, and inter-stage-which limit pipeline saturation. We present SiPipe, a heterogeneous pipeline design that improves throughput by leveraging underutilized CPU resources to offload auxiliary computation and communication. SiPipe incorporates three key techniques-CPU sampling, a token-safe execution model, and structure-aware transmission-to mitigate pipeline bubbles and improve execution efficiency. Across diverse LLMs, SiPipe achieves up to 2.1 times higher throughput, 43% lower per-token latency, and up to 23% higher average GPU utilization compared to the state-of-the-art vLLM under the same PP configuration, demonstrating its generality across LLMs and deployment scenarios.
主题: 分布式、并行与集群计算 (cs.DC)
引用方式: arXiv:2506.22033 [cs.DC]
  (或者 arXiv:2506.22033v1 [cs.DC] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.22033
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Bohan Zhao [查看电子邮件]
[v1] 星期五, 2025 年 6 月 27 日 09:27:04 UTC (1,683 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.DC
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号