Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > math-ph > arXiv:2306.02108

帮助 | 高级搜索

数学物理

arXiv:2306.02108 (math-ph)
[提交于 2023年6月3日 ]

标题: 随机矩阵理论与神经网络的损失曲面

标题: Random matrix theory and the loss surfaces of neural networks

Authors:Nicholas P Baskerville
摘要: 神经网络模型是机器学习中最成功的方法之一,在近年来得到了大量的发展和研究,并在科学、工程以及现代生活的几乎每一个领域都找到了具体的实际应用。 然而,对于神经网络的理论理解远远落后于它们的实际成功以及围绕它们发展起来的工程经验法则。 随机矩阵理论提供了一个丰富的工具框架,可以用来从理论上探索神经网络现象学的各个方面。 在本论文中,我们通过扩展先前利用随机矩阵理论来理解和描述大型神经网络损失面的工作,特别是在不同的架构上进行推广。 受到随机矩阵理论在物理学及其他领域的历史应用启发,我们证明了真实神经网络中存在局部随机矩阵普适性,并以此作为建模假设,推导出关于神经网络损失面及其谱系的Hessian的强大且新颖的结果。 除了这些主要贡献之外,我们还利用神经网络损失面的随机矩阵模型来揭示现代神经网络训练方法的某些方面,并甚至推导出一种流行优化算法的新颖且有效的变体。 总体而言,本论文在巩固随机矩阵理论在现代神经网络理论研究中的地位方面做出了重要贡献,揭示了现有方法的一些局限性,并开始研究随机矩阵理论在深度学习理论中的全新角色,基于局部随机矩阵普适性的实验发现和新颖的理论成果。
摘要: Neural network models are one of the most successful approaches to machine learning, enjoying an enormous amount of development and research over recent years and finding concrete real-world applications in almost any conceivable area of science, engineering and modern life in general. The theoretical understanding of neural networks trails significantly behind their practical success and the engineering heuristics that have grown up around them. Random matrix theory provides a rich framework of tools with which aspects of neural network phenomenology can be explored theoretically. In this thesis, we establish significant extensions of prior work using random matrix theory to understand and describe the loss surfaces of large neural networks, particularly generalising to different architectures. Informed by the historical applications of random matrix theory in physics and elsewhere, we establish the presence of local random matrix universality in real neural networks and then utilise this as a modeling assumption to derive powerful and novel results about the Hessians of neural network loss surfaces and their spectra. In addition to these major contributions, we make use of random matrix models for neural network loss surfaces to shed light on modern neural network training approaches and even to derive a novel and effective variant of a popular optimisation algorithm. Overall, this thesis provides important contributions to cement the place of random matrix theory in the theoretical study of modern neural networks, reveals some of the limits of existing approaches and begins the study of an entirely new role for random matrix theory in the theory of deep learning with important experimental discoveries and novel theoretical results based on local random matrix universality.
评论: 320页,博士论文
主题: 数学物理 (math-ph) ; 机器学习 (cs.LG); 概率 (math.PR)
引用方式: arXiv:2306.02108 [math-ph]
  (或者 arXiv:2306.02108v1 [math-ph] 对于此版本)
  https://doi.org/10.48550/arXiv.2306.02108
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Nicholas Baskerville [查看电子邮件]
[v1] 星期六, 2023 年 6 月 3 日 13:16:17 UTC (10,190 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
查看许可
当前浏览上下文:
math-ph
< 上一篇   |   下一篇 >
新的 | 最近的 | 2023-06
切换浏览方式为:
cs
cs.LG
math
math.MP
math.PR

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号