计算机科学 > 性能
[提交于 2025年8月11日
]
标题: 通过最优适配器缓存提高GPU效率:多租户LLM服务的分析方法
标题: Maximizing GPU Efficiency via Optimal Adapter Caching: An Analytical Approach for Multi-Tenant LLM Serving
摘要: 将LLM适配器用于服务已引起广泛关注,作为一种有效的方法,将通用语言模型适应到各种特定任务的使用场景中。 然而,服务大量适配器会引入多个且显著的开销,导致性能下降和最佳放置的挑战。 为解决这些挑战,我们提出了一种分析性、由AI驱动的流程,能够准确确定单节点设置中适配器的最佳分配。 这种分配最大化性能,有效利用GPU资源,同时防止请求饥饿。 至关重要的是,所提出的分配是基于当前工作负载模式的。 这些在单节点设置中的见解可以用于多副本部署中的整体放置、负载平衡和服务器配置,最终提高整体性能并改善资源效率。 我们的方法建立在对LLM适配器服务的深入分析基础上,考虑了开销和性能变化,并包括开发第一个能够以匹配的关键性能指标复制在线LLM-适配器服务系统的数字孪生体。 实验结果表明,与真实结果相比,数字孪生体在吞吐量方面的SMAPE差异不超过5.5%,并且所提出的流程能够以最小的延迟准确预测最佳放置。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.