计算机科学 > 分布式、并行与集群计算
[提交于 2025年7月14日
]
标题: ElasticMM:使用弹性多模态并行的高效多模态LLMs服务
标题: ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism
摘要: 多模态大语言模型(MLLMs)通过引入特征提取器和投影模块,扩展了LLMs以处理图像、视频和音频。 然而,这些附加组件——结合复杂的推理流程和异构工作负载——带来了显著的推理开销。 因此,高效地服务MLLMs仍然是一个主要挑战。 当前紧密耦合的服务架构难以区分混合请求类型或根据不同的推理阶段调整并行策略,导致首次标记时间(TTFT)延迟增加和资源利用率低下。 为了解决这个问题,我们提出了弹性多模态并行性(EMP),一种新的服务范式,能够弹性适应不同请求类型和推理阶段之间的资源异构性。 基于EMP,我们开发了ElasticMM,这是一种MLLM服务系统,它(1)通过模态感知的负载均衡器将请求分离为独立的模态组,并进行动态资源分配;(2)解耦推理阶段并通过弹性分区调度实现并行性调整和自适应扩展;(3)通过统一的多模态前缀缓存和非阻塞编码提高推理效率。 在多种真实世界数据集上的实验表明,ElasticMM优于最先进的(SOTA)服务系统,将TTFT减少了最多4.2倍,并在满足服务级别目标(SLOs)的同时实现了3.2-4.5倍的更高吞吐量。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.