统计学 > 机器学习
[提交于 2022年5月3日
]
标题: 特征学习的高维渐近性:一步梯度如何改进表示
标题: High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation
摘要: 我们研究两层神经网络中第一层参数 $\boldsymbol{W}$ 的首次梯度下降步骤:$f(\boldsymbol{x}) = \frac{1}{\sqrt{N}}\boldsymbol{a}^\top\sigma(\boldsymbol{W}^\top\boldsymbol{x})$,其中 $\boldsymbol{W}\in\mathbb{R}^{d\times N}, \boldsymbol{a}\in\mathbb{R}^{N}$ 随机初始化,训练目标是经验均方误差(MSE)损失:$\frac{1}{n}\sum_{i=1}^n (f(\boldsymbol{x}_i)-y_i)^2$。在比例渐近极限下,当 $n,d,N\to\infty$ 以相同速率变化,并且处于理想的学生-教师设定中时,我们证明首次梯度更新包含一个秩-1“尖峰”,这导致第一层权重与教师模型 $f^*$ 的线性组件之间的对齐。 为了刻画这种对齐的影响,我们计算了在单指标模型 $f^*$ 下,学习率 $\eta$ 条件下,对 $\boldsymbol{W}$ 进行一次梯度下降步长后的共轭核上的岭回归预测风险。 我们考虑了初始学习率 $\eta$ 的两种缩放方式。 对于较小的 $\eta$,我们建立了训练特征映射的高斯等价性质,并证明学习到的核比初始随机特征模型有所改进,但无法击败最佳线性模型。 而对于足够大的 $\eta$,我们证明了对于某些 $f^*$,在训练特征上相同的岭估计量可以超越这个“线性区域”,并且优于广泛的随机特征和旋转不变核。 我们的结果表明,即使一次梯度步长也可以比随机特征带来显著优势,并突出了学习率缩放在训练初始阶段的作用。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.