电气工程与系统科学 > 信号处理
[提交于 2025年7月16日
(v1)
,最后修订 2025年7月17日 (此版本, v2)]
标题: DSSD:通过分布式拆分推测解码实现高效边缘设备大模型部署和协同推理
标题: DSSD: Efficient Edge-Device LLM Deployment and Collaborative Inference via Distributed Split Speculative Decoding
摘要: 大型语言模型(LLMs)已经改变了自然语言处理,但由于资源限制和通信开销,在设备边缘系统中面临关键的部署挑战。 为了解决这些问题,出现了协作框架,将设备上的小型语言模型(SLMs)与边缘的LLMs结合,使用推测解码(SD)来提高效率。 然而,现有解决方案往往以牺牲推理准确率为代价来降低延迟,或在验证候选标记时遭受高上行传输成本。 在本文中,我们提出了分布式分割推测解码(DSSD),这是一种新架构,不仅保留了SLM-LLM的分割,还将在设备和边缘之间划分验证阶段。 这样,DSSD用单一下行传输替代多个词汇分布的上行传输,显著降低了通信延迟,同时保持推理质量。 实验表明,我们的解决方案优于当前方法,代码位于:https://github.com/JasonNing96/DSSD-Efficient-Edge-Computing
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.