计算机科学 > 分布式、并行与集群计算
标题: 月饼:面向大语言模型服务的以KV缓存为中心的解耦架构
标题: Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving
摘要: 月饼是Kimi的部署平台,Kimi是由Moonshot AI提供的领先大语言模型服务。 它采用以KV缓存为中心的解耦架构,将预填充和解码集群分离。 它还利用GPU集群中未充分利用的CPU、DRAM和SSD资源,实现KV缓存的解耦缓存。 月饼的核心是其以KV缓存为中心的调度器,在最大化整体有效吞吐量的同时满足与延迟相关的服务等级目标(SLO)。 与传统研究假设所有请求都将被处理不同,月饼由于高度过载的场景而面临挑战。 为缓解这些问题,我们开发了一种基于预测的早期拒绝策略。 实验表明,月饼在长上下文场景中表现出色。 与基线方法相比,月饼在某些模拟场景中可以在遵守SLO的前提下实现吞吐量最高提升525%。 在实际工作负载下,月饼的创新架构使Kimi能够处理75%更多的请求。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.