计算机科学 > 分布式、并行与集群计算
[提交于 2025年7月2日
]
标题: EdgeLoRA:一种在边缘设备上的高效多租户大语言模型服务系统
标题: EdgeLoRA: An Efficient Multi-Tenant LLM Serving System on Edge Devices
摘要: 大型语言模型(LLMs)由于在各种应用中的多功能性而受到广泛关注。使用参数高效的适配器对LLMs进行微调,例如低秩适配(LoRA),使这些模型能够在不进行大量重新训练的情况下高效适应下游任务。在多租户边缘设备上部署微调后的LLMs可以带来显著的优势,例如降低延迟、增强隐私性和个性化响应。然而,在资源受限的边缘设备上高效地提供LLMs服务面临关键挑战,包括不同任务的适配器选择复杂性和频繁适配器切换带来的内存开销。此外,鉴于多租户环境中的多个请求,按顺序处理请求会导致计算资源利用率低下和延迟增加。本文介绍了EdgeLoRA,这是一种在多租户环境中在边缘设备上提供LLMs的高效系统。EdgeLoRA包含三个关键创新:(1)自适应适配器选择机制,以简化适配器配置过程;(2)异构内存管理,利用智能适配器缓存和池化来减轻内存操作开销;(3)批量LoRA推理,实现高效的批量处理,显著减少计算延迟。使用Llama3.1-8B模型进行全面评估表明,EdgeLoRA在延迟和吞吐量方面均显著优于现状(即llama.cpp)。结果表明,EdgeLoRA可以将吞吐量提高多达4倍。更令人印象深刻的是,它能够同时服务数量级更多的适配器。这些结果突显了EdgeLoRA在多租户场景中转变LLMs边缘部署的潜力,为资源受限环境提供了可扩展且高效的解决方案。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.