Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.10069

帮助 | 高级搜索

计算机科学 > 分布式、并行与集群计算

arXiv:2507.10069 (cs)
[提交于 2025年7月14日 ]

标题: ElasticMM:使用弹性多模态并行的高效多模态LLMs服务

标题: ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism

Authors:Zedong Liu, Shenggan Cheng, Guangming Tan, Yang You, Dingwen Tao
摘要: 多模态大语言模型(MLLMs)通过引入特征提取器和投影模块,扩展了LLMs以处理图像、视频和音频。 然而,这些附加组件——结合复杂的推理流程和异构工作负载——带来了显著的推理开销。 因此,高效地服务MLLMs仍然是一个主要挑战。 当前紧密耦合的服务架构难以区分混合请求类型或根据不同的推理阶段调整并行策略,导致首次标记时间(TTFT)延迟增加和资源利用率低下。 为了解决这个问题,我们提出了弹性多模态并行性(EMP),一种新的服务范式,能够弹性适应不同请求类型和推理阶段之间的资源异构性。 基于EMP,我们开发了ElasticMM,这是一种MLLM服务系统,它(1)通过模态感知的负载均衡器将请求分离为独立的模态组,并进行动态资源分配;(2)解耦推理阶段并通过弹性分区调度实现并行性调整和自适应扩展;(3)通过统一的多模态前缀缓存和非阻塞编码提高推理效率。 在多种真实世界数据集上的实验表明,ElasticMM优于最先进的(SOTA)服务系统,将TTFT减少了最多4.2倍,并在满足服务级别目标(SLOs)的同时实现了3.2-4.5倍的更高吞吐量。
摘要: Multimodal large language models (MLLMs) extend LLMs to handle images, videos, and audio by incorporating feature extractors and projection modules. However, these additional components -- combined with complex inference pipelines and heterogeneous workloads -- introduce significant inference overhead. Therefore, efficiently serving MLLMs remains a major challenge. Current tightly coupled serving architectures struggle to distinguish between mixed request types or adapt parallelism strategies to different inference stages, leading to increased time-to-first-token (TTFT) latency and poor resource utilization. To address this, we propose Elastic Multimodal Parallelism (EMP), a new serving paradigm that elastically adapts to resource heterogeneity across request types and inference stages. Building upon EMP, we develop ElasticMM, an MLLM serving system that (1) separates requests into independent modality groups with dynamic resource allocation via a modality-aware load balancer; (2) decouples inference stages and enables parallelism adjustment and adaptive scaling via elastic partition scheduling; and (3) improves inference efficiency through unified multimodal prefix caching and non-blocking encoding. Experiments on diverse real-world datasets show that ElasticMM outperforms state-of-the-art (SOTA) serving systems, reducing TTFT by up to 4.2x and achieving 3.2-4.5x higher throughput while meeting service-level objectives (SLOs).
主题: 分布式、并行与集群计算 (cs.DC) ; 机器学习 (cs.LG)
引用方式: arXiv:2507.10069 [cs.DC]
  (或者 arXiv:2507.10069v1 [cs.DC] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.10069
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Zedong Liu [查看电子邮件]
[v1] 星期一, 2025 年 7 月 14 日 08:53:48 UTC (1,700 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.DC

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号