计算机科学 > 分布式、并行与集群计算
[提交于 2024年6月24日
(v1)
,最后修订 2025年9月3日 (此版本, v4)]
标题: 月饼:一种以KV缓存为中心的LLM服务解耦架构
标题: Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving
摘要: 月球蛋糕是Kimi的部署平台,Kimi是由Moonshot AI提供的领先大型语言模型服务。 它采用以KV缓存为中心的解耦架构,将预填充和解码集群分离。 它还利用GPU集群中未充分利用的CPU、DRAM和SSD资源,实现KV缓存的解耦缓存。 月球蛋糕的核心是其以KV缓存为中心的调度器,在最大化整体有效吞吐量的同时满足与延迟相关的服务等级目标(SLO)。 与传统研究假设所有请求都将被处理不同,月球蛋糕由于高度过载的场景面临挑战。 为了缓解这些问题,我们开发了一种基于预测的早期拒绝策略。 实验表明,月球蛋糕在长上下文场景中表现出色。 与基准方法相比,月球蛋糕在某些模拟场景中可以在遵守SLO的前提下实现吞吐量最高525%的提升。 在实际工作负载下,月球蛋糕的创新架构使Kimi能够处理75%更多的请求。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.