Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2504.10693

帮助 | 高级搜索

计算机科学 > 分布式、并行与集群计算

arXiv:2504.10693 (cs)
[提交于 2025年4月14日 ]

标题: 基于分布式梯度下降的考虑网络时延的负载均衡

标题: Load Balancing with Network Latencies via Distributed Gradient Descent

Authors:Santiago R. Balseiro, Vahab S. Mirrokni, Bartek Wydrowski
摘要: 受服务大型语言模型推理请求不断增长的需求驱动,我们研究了具有网络延迟的全球服务系统的分布式负载平衡。 我们考虑一个流模型,其中连续的请求流从不同的前端到达,需要被路由到处理速率依赖于工作量的远程后端进行处理。 网络延迟可能导致请求的长时间传输和后端的延迟反馈。 目标是减少请求的平均延迟,包括网络延迟和后端的服务延迟。 我们引入了分布式梯度下降负载平衡(DGD-LB),这是一种概率路由算法,每个前端使用梯度下降动态调整路由概率。 我们的算法是分布式的:除了观察其他前端对共享后端的延迟影响外,前端之间没有协调。 该算法使用近似梯度,该梯度测量在延迟系统状态下额外请求的边际影响。 我们算法的平衡点最小化集中式最优平均延迟,并我们提供了一种新颖的局部稳定性分析,表明当从足够接近该点的位置开始时,我们的算法会收敛到最优解。 此外,我们提出了梯度下降步长的充分条件,这些条件在存在网络延迟的情况下保证收敛。 数值实验表明,我们的算法是全局稳定和最优的,确认我们的稳定性条件几乎紧密,并且表明当网络延迟较大时,DGD-LB相对于文献中研究的其他负载均衡器可以带来显著的收益。
摘要: Motivated by the growing demand for serving large language model inference requests, we study distributed load balancing for global serving systems with network latencies. We consider a fluid model in which continuous flows of requests arrive at different frontends and need to be routed to distant backends for processing whose processing rates are workload dependent. Network latencies can lead to long travel times for requests and delayed feedback from backends. The objective is to minimize the average latency of requests, composed of the network latency and the serving latency at the backends. We introduce Distributed Gradient Descent Load Balancing (DGD-LB), a probabilistic routing algorithm in which each frontend adjusts the routing probabilities dynamically using gradient descent. Our algorithm is distributed: there is no coordination between frontends, except by observing the delayed impact other frontends have on shared backends. The algorithm uses an approximate gradient that measures the marginal impact of an additional request evaluated at a delayed system state. Equilibrium points of our algorithm minimize the centralized optimal average latencies, and we provide a novel local stability analysis showing that our algorithm converges to an optimal solution when started sufficiently close to that point. Moreover, we present sufficient conditions on the step-size of gradient descent that guarantee convergence in the presence of network latencies. Numerical experiments show that our algorithm is globally stable and optimal, confirm our stability conditions are nearly tight, and demonstrate that DGD-LB can lead to substantial gains relative to other load balancers studied in the literature when network latencies are large.
主题: 分布式、并行与集群计算 (cs.DC) ; 优化与控制 (math.OC)
引用方式: arXiv:2504.10693 [cs.DC]
  (或者 arXiv:2504.10693v1 [cs.DC] 对于此版本)
  https://doi.org/10.48550/arXiv.2504.10693
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Santiago Balseiro [查看电子邮件]
[v1] 星期一, 2025 年 4 月 14 日 20:30:17 UTC (105 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
math
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-04
切换浏览方式为:
cs
cs.DC
math.OC

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号