计算机科学 > 机器学习
[提交于 2025年1月5日
]
标题: 大型语言模型在资源受限设备上的高效部署
标题: Efficient Deployment of Large Language Models on Resource-constrained Devices
摘要: 在资源受限(或弱)设备上部署大型语言模型(LLMs)由于资源有限和数据分布异构性而面临重大挑战。 为解决数据问题,有必要使用设备上的私有数据对LLMs进行微调,以适应各种下游任务。 虽然联邦学习(FL)提供了一种有前景的隐私保护解决方案,但现有的微调方法保留了原始LLM的大小,导致高推理延迟和过高的内存需求问题仍未解决。 因此,我们设计了FedSpine,这是一种将参数高效微调(PEFT)与结构化剪枝相结合的FL框架,以实现LLMs在资源受限设备上的高效部署。 具体而言,FedSpine引入了一个迭代过程来剪枝和调整LLMs的参数。 为了减轻设备异构性的影响,采用了一种在线多臂老虎机(MAB)算法,无需任何关于设备计算和通信能力的先验知识,自适应地确定不同的剪枝比例和LoRA秩。 结果表明,FedSpine在保持更高推理准确性的同时提高了微调效率。 在包含80个设备的物理平台上进行的实验结果表明,与其它基线相比,FedSpine在相同稀疏度水平下可以将微调速度提高1.4$\times$-6.9$\times$,并将最终准确率提高0.4%-4.5%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.