数学 > 优化与控制
[提交于 2023年11月20日
(v1)
,最后修订 2025年3月14日 (此版本, v3)]
标题: 高概率保证的随机重排
标题: High Probability Guarantees for Random Reshuffling
摘要: 我们考虑带有随机重排的随机梯度方法($\mathsf{RR}$)来解决平滑非凸优化问题。$\mathsf{RR}$在实践中有着广泛的应用,特别是在训练神经网络方面。在本工作中,我们为此方法提供了高概率的一阶和二阶复杂度保证。首先,我们建立了一个高概率的一阶样本复杂度结果,以将梯度的欧几里得范数(不取期望)降低到$\varepsilon$以下。我们得到的复杂度与现有最好的期望内复杂度相匹配,仅在对数项上有所不同,同时没有引入额外的假设,也没有改变$\mathsf{RR}$的更新规则。然后我们提出了一个简单且可计算的停止准则用于$\mathsf{RR}$(记为$\mathsf{RR}$-$\mathsf{sc}$)。该准则保证在有限次数的迭代后被触发,使我们能够证明最后一个迭代的高概率一阶复杂度保证。 其次,基于提出的停止准则,我们设计了一种扰动随机重排方法($\mathsf{p}$-$\mathsf{RR}$),该方法在平稳点附近涉及一个额外的随机扰动过程。我们推导出$\mathsf{p}$-$\mathsf{RR}$可以保证逃离严格鞍点,并建立了高概率的二阶复杂度结果,而无需对随机梯度误差施加任何次高斯尾部类型的假设。推导上述结果的基本要素是$\mathsf{RR}$中抽样无放回的新集中性质,这可能具有独立兴趣。最后,我们在神经网络训练中进行了数值实验,以支持我们的理论结果。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.