Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2412.05144v3

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2412.05144v3 (cs)
[提交于 2024年12月6日 (v1) ,最后修订 2025年7月18日 (此版本, v3)]

标题: $ε$-阶和阶梯现象:对神经网络训练动态的新见解

标题: $ε$-rank and the Staircase Phenomenon: New Insights into Neural Network Training Dynamics

Authors:Jiang Yang, Yuxiang Zhao, Quanhui Zhu
摘要: 理解深度神经网络 (DNN) 的训练动态,尤其是它们如何从高维数据演化出低维特征,仍然是深度学习理论的核心挑战。 本文引入了 $\epsilon$-rank 的概念,这是一个量化终端隐藏层神经元函数有效特征的全新指标。 通过对不同任务的广泛实验,我们观察到一种普遍存在的阶梯现象:在使用标准随机梯度下降方法进行训练的过程中,损失函数的下降伴随着 $\epsilon$-rank 的上升,并呈现出阶梯状模式。 从理论上,我们严格证明了损失下限与 $\epsilon$-rank 之间存在负相关性,表明较高的 $\epsilon$-rank 对于显著降低损失至关重要。 此外,数值证据表明,在同一个深度神经网络中,后续隐藏层的 $\epsilon$-rank 高于前一个隐藏层。 基于这些观察,为了消除阶梯现象,我们提出了一种新颖的初始隐藏层预训练策略,以提高终端隐藏层的$\epsilon$秩。 数值实验验证了该策略在缩短训练时间并提高各种任务的准确率方面的有效性。 因此,新引入的$\epsilon$秩概念是一个可计算的量,可作为深度神经网络的内在有效度量特征,为理解神经网络的训练动态提供了一个新的视角,并为在实际应用中设计高效的训练策略提供了理论基础。
摘要: Understanding the training dynamics of deep neural networks (DNNs), particularly how they evolve low-dimensional features from high-dimensional data, remains a central challenge in deep learning theory. In this work, we introduce the concept of $\epsilon$-rank, a novel metric quantifying the effective feature of neuron functions in the terminal hidden layer. Through extensive experiments across diverse tasks, we observe a universal staircase phenomenon: during training process implemented by the standard stochastic gradient descent methods, the decline of the loss function is accompanied by an increase in the $\epsilon$-rank and exhibits a staircase pattern. Theoretically, we rigorously prove a negative correlation between the loss lower bound and $\epsilon$-rank, demonstrating that a high $\epsilon$-rank is essential for significant loss reduction. Moreover, numerical evidences show that within the same deep neural network, the $\epsilon$-rank of the subsequent hidden layer is higher than that of the previous hidden layer. Based on these observations, to eliminate the staircase phenomenon, we propose a novel pre-training strategy on the initial hidden layer that elevates the $\epsilon$-rank of the terminal hidden layer. Numerical experiments validate its effectiveness in reducing training time and improving accuracy across various tasks. Therefore, the newly introduced concept of $\epsilon$-rank is a computable quantity that serves as an intrinsic effective metric characteristic for deep neural networks, providing a novel perspective for understanding the training dynamics of neural networks and offering a theoretical foundation for designing efficient training strategies in practical applications.
主题: 机器学习 (cs.LG) ; 数值分析 (math.NA)
引用方式: arXiv:2412.05144 [cs.LG]
  (或者 arXiv:2412.05144v3 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2412.05144
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Quanhui Zhu [查看电子邮件]
[v1] 星期五, 2024 年 12 月 6 日 16:00:50 UTC (1,455 KB)
[v2] 星期四, 2025 年 1 月 9 日 06:18:12 UTC (1,455 KB)
[v3] 星期五, 2025 年 7 月 18 日 14:59:07 UTC (1,668 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-12
切换浏览方式为:
cs
cs.NA
math
math.NA

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号