计算机科学 > 机器学习
[提交于 2020年2月29日
(此版本)
, 最新版本 2021年5月26日 (v2)
]
标题: 向非线性方程组过度参数化系统的优化理论:深度学习的启示
标题: Toward a theory of optimization for over-parameterized systems of non-linear equations: the lessons of deep learning
摘要: 深度学习的成功在很大程度上归功于在大型神经网络上应用的基于梯度的优化方法的显著效果。 在本工作中,我们隔离了一些一般的数学结构,使得在超参数化非线性方程系统中能够进行高效的优化,这一设置包括深度神经网络。 特别是,我们证明了对应于这些系统的优化问题即使在局部也是非凸的,但满足Polyak-Lojasiewicz(PL)条件,从而可以通过梯度下降或SGD进行高效优化。 我们将这些系统的PL条件与与切线核相关的条件数联系起来,并发展了一种非线性理论,与超参数化线性方程的经典分析平行。 我们讨论了这些思想如何应用于训练浅层和深层神经网络。 最后,我们指出,某些大系统的切线核可能即使在局部也远非常数。 然而,我们的分析仍然允许证明解的存在性和梯度下降和SGD的收敛性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.