计算机科学 > 机器学习
[提交于 2025年10月17日
]
标题: 通过适当权重衰减调整的鲁棒分层缩放规则
标题: Robust Layerwise Scaling Rules by Proper Weight Decay Tuning
摘要: 经验缩放定律规定了如何分配参数、数据和计算,而最大更新参数化($\mu$P)通过使早期时间更新幅度相等,实现了宽度之间的学习率迁移。 然而,在现代尺度不变架构中,训练很快进入优化器主导的稳态,其中归一化层创建了反向尺度敏感性,有效学习率变得与宽度相关,从而损害了$\mu$P的迁移。 我们通过为AdamW引入一个权重衰减缩放规则来解决这个问题,该规则在不同宽度下保持子层增益。 经验上,每个矩阵参数的奇异值谱的范数按$\sqrt{\eta/\lambda}$缩放,其形状大致不变;在宽度缩放$d$下,我们观察到最大奇异值大约按$\sqrt{\eta/\lambda}\cdot d^{0.75}$缩放。 结合这一观察与矩阵类参数的$\mu$学习率规则$\eta_2\propto d^{-1}$,意味着一种经验性的权重衰减缩放规则$\lambda_2\propto \sqrt{d}$,该规则近似保持子层增益宽度不变。 与在$\eta_1=\Theta_d(1)$和$\lambda_1=0$训练的向量类参数一起,这产生了\emph{零次学习}从代理宽度到目标宽度的学习率和权重衰减的迁移,消除了每宽度扫描。 我们在 LLaMA 风格的 Transformers 和一个最小合成设置中验证了该规则,并提供了一个简单的诊断方法,匹配最大奇异值,以检查子层增益不变性。 我们的结果通过显式控制优化器设定的稳态尺度,将$\mu$P 扩展到接近初始区域之外,为 AdamW 下的宽度鲁棒超参数迁移提供了一个实用的方案。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.