Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.08343v1

帮助 | 高级搜索

计算机科学 > 性能

arXiv:2508.08343v1 (cs)
[提交于 2025年8月11日 ]

标题: 通过最优适配器缓存提高GPU效率:多租户LLM服务的分析方法

标题: Maximizing GPU Efficiency via Optimal Adapter Caching: An Analytical Approach for Multi-Tenant LLM Serving

Authors:Ferran Agullo, Joan Oliveras, Chen Wang, Alberto Gutierrez-Torre, Olivier Tardieu, Alaa Youssef, Jordi Torres, Josep Ll. Berral
摘要: 将LLM适配器用于服务已引起广泛关注,作为一种有效的方法,将通用语言模型适应到各种特定任务的使用场景中。 然而,服务大量适配器会引入多个且显著的开销,导致性能下降和最佳放置的挑战。 为解决这些挑战,我们提出了一种分析性、由AI驱动的流程,能够准确确定单节点设置中适配器的最佳分配。 这种分配最大化性能,有效利用GPU资源,同时防止请求饥饿。 至关重要的是,所提出的分配是基于当前工作负载模式的。 这些在单节点设置中的见解可以用于多副本部署中的整体放置、负载平衡和服务器配置,最终提高整体性能并改善资源效率。 我们的方法建立在对LLM适配器服务的深入分析基础上,考虑了开销和性能变化,并包括开发第一个能够以匹配的关键性能指标复制在线LLM-适配器服务系统的数字孪生体。 实验结果表明,与真实结果相比,数字孪生体在吞吐量方面的SMAPE差异不超过5.5%,并且所提出的流程能够以最小的延迟准确预测最佳放置。
摘要: Serving LLM adapters has gained significant attention as an effective approach to adapt general-purpose language models to diverse, task-specific use cases. However, serving a wide range of adapters introduces several and substantial overheads, leading to performance degradation and challenges in optimal placement. To address these challenges, we present an analytical, AI-driven pipeline that accurately determines the optimal allocation of adapters in single-node setups. This allocation maximizes performance, effectively using GPU resources, while preventing request starvation. Crucially, the proposed allocation is given based on current workload patterns. These insights in single-node setups can be leveraged in multi-replica deployments for overall placement, load balancing and server configuration, ultimately enhancing overall performance and improving resource efficiency. Our approach builds on an in-depth analysis of LLM adapter serving, accounting for overheads and performance variability, and includes the development of the first Digital Twin capable of replicating online LLM-adapter serving systems with matching key performance metrics. The experimental results demonstrate that the Digital Twin achieves a SMAPE difference of no more than 5.5% in throughput compared to real results, and the proposed pipeline accurately predicts the optimal placement with minimal latency.
评论: 正在审稿中的计算机科学会议
主题: 性能 (cs.PF) ; 人工智能 (cs.AI); 计算与语言 (cs.CL)
引用方式: arXiv:2508.08343 [cs.PF]
  (或者 arXiv:2508.08343v1 [cs.PF] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.08343
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Ferran Agullo [查看电子邮件]
[v1] 星期一, 2025 年 8 月 11 日 10:47:35 UTC (251 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.PF
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.AI
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号