计算机科学 > 机器学习
[提交于 2024年12月6日
(v1)
,最后修订 2025年7月18日 (此版本, v3)]
标题: $ε$-阶和阶梯现象:对神经网络训练动态的新见解
标题: $ε$-rank and the Staircase Phenomenon: New Insights into Neural Network Training Dynamics
摘要: 理解深度神经网络 (DNN) 的训练动态,尤其是它们如何从高维数据演化出低维特征,仍然是深度学习理论的核心挑战。 本文引入了 $\epsilon$-rank 的概念,这是一个量化终端隐藏层神经元函数有效特征的全新指标。 通过对不同任务的广泛实验,我们观察到一种普遍存在的阶梯现象:在使用标准随机梯度下降方法进行训练的过程中,损失函数的下降伴随着 $\epsilon$-rank 的上升,并呈现出阶梯状模式。 从理论上,我们严格证明了损失下限与 $\epsilon$-rank 之间存在负相关性,表明较高的 $\epsilon$-rank 对于显著降低损失至关重要。 此外,数值证据表明,在同一个深度神经网络中,后续隐藏层的 $\epsilon$-rank 高于前一个隐藏层。 基于这些观察,为了消除阶梯现象,我们提出了一种新颖的初始隐藏层预训练策略,以提高终端隐藏层的$\epsilon$秩。 数值实验验证了该策略在缩短训练时间并提高各种任务的准确率方面的有效性。 因此,新引入的$\epsilon$秩概念是一个可计算的量,可作为深度神经网络的内在有效度量特征,为理解神经网络的训练动态提供了一个新的视角,并为在实际应用中设计高效的训练策略提供了理论基础。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.