数学 > 优化与控制
[提交于 2025年6月30日
]
标题: 通过新的下界构造证明集中式分布式优化的可扩展性有限
标题: Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction
摘要: 我们考虑经典联邦学习设置中的集中式分布式优化,其中 $n$个工作者共同寻找一个 $\varepsilon$-驻点的 $L$-光滑、 $d$-维非凸函数 $f$,仅能访问方差为 $\sigma^2$的无偏随机梯度。 每个工作者计算一个随机梯度最多需要$h$秒,从服务器到工作者和从工作者到服务器的通信时间分别为每坐标$\tau_{s}$和$\tau_{w}$秒。 分布式优化的主要动机之一是相对于$n$实现可扩展性。 例如,众所周知,分布式版本的SGD有一个与方差相关的运行时间项$\frac{h \sigma^2 L \Delta}{n \varepsilon^2},$,它随着工作者数量$n,$的增加而改善,其中$\Delta = f(x^0) - f^*,$和$x^0 \in R^d$是起始点。 同样地,使用无偏稀疏化压缩器,可以减少与方差相关的运行时间项和通信运行时间项。 然而,一旦考虑从服务器到工作者的通信$\tau_{s}$,我们证明设计一种使用无偏随机稀疏化压缩器的方法变得不可行,该方法无法在$n$的多项对数范围内更好地缩放服务器端通信运行时间项$\tau_{s} d \frac{L \Delta}{\varepsilon}$和方差相关运行时间项$\frac{h \sigma^2 L \Delta}{\varepsilon^2},$,即使在同质(独立同分布)情况下也是如此,其中所有工作者访问相同分布。为了建立这个结果,我们构造了一个新的“最坏情况”函数,并开发了一个新的下界框架,将分析简化为随机和的集中性,我们为此证明了一个集中性边界。这些结果揭示了在分布式优化中的基本限制,即使在同质假设下也是如此。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.