数学物理
[提交于 2023年6月3日
]
标题: 随机矩阵理论与神经网络的损失曲面
标题: Random matrix theory and the loss surfaces of neural networks
摘要: 神经网络模型是机器学习中最成功的方法之一,在近年来得到了大量的发展和研究,并在科学、工程以及现代生活的几乎每一个领域都找到了具体的实际应用。 然而,对于神经网络的理论理解远远落后于它们的实际成功以及围绕它们发展起来的工程经验法则。 随机矩阵理论提供了一个丰富的工具框架,可以用来从理论上探索神经网络现象学的各个方面。 在本论文中,我们通过扩展先前利用随机矩阵理论来理解和描述大型神经网络损失面的工作,特别是在不同的架构上进行推广。 受到随机矩阵理论在物理学及其他领域的历史应用启发,我们证明了真实神经网络中存在局部随机矩阵普适性,并以此作为建模假设,推导出关于神经网络损失面及其谱系的Hessian的强大且新颖的结果。 除了这些主要贡献之外,我们还利用神经网络损失面的随机矩阵模型来揭示现代神经网络训练方法的某些方面,并甚至推导出一种流行优化算法的新颖且有效的变体。 总体而言,本论文在巩固随机矩阵理论在现代神经网络理论研究中的地位方面做出了重要贡献,揭示了现有方法的一些局限性,并开始研究随机矩阵理论在深度学习理论中的全新角色,基于局部随机矩阵普适性的实验发现和新颖的理论成果。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.