Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.15262v1

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2510.15262v1 (cs)
[提交于 2025年10月17日 ]

标题: 通过适当权重衰减调整的鲁棒分层缩放规则

标题: Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

Authors:Zhiyuan Fan, Yifeng Liu, Qingyue Zhao, Angela Yuan, Quanquan Gu
摘要: 经验缩放定律规定了如何分配参数、数据和计算,而最大更新参数化($\mu$P)通过使早期时间更新幅度相等,实现了宽度之间的学习率迁移。 然而,在现代尺度不变架构中,训练很快进入优化器主导的稳态,其中归一化层创建了反向尺度敏感性,有效学习率变得与宽度相关,从而损害了$\mu$P的迁移。 我们通过为AdamW引入一个权重衰减缩放规则来解决这个问题,该规则在不同宽度下保持子层增益。 经验上,每个矩阵参数的奇异值谱的范数按$\sqrt{\eta/\lambda}$缩放,其形状大致不变;在宽度缩放$d$下,我们观察到最大奇异值大约按$\sqrt{\eta/\lambda}\cdot d^{0.75}$缩放。 结合这一观察与矩阵类参数的$\mu$学习率规则$\eta_2\propto d^{-1}$,意味着一种经验性的权重衰减缩放规则$\lambda_2\propto \sqrt{d}$,该规则近似保持子层增益宽度不变。 与在$\eta_1=\Theta_d(1)$和$\lambda_1=0$训练的向量类参数一起,这产生了\emph{零次学习}从代理宽度到目标宽度的学习率和权重衰减的迁移,消除了每宽度扫描。 我们在 LLaMA 风格的 Transformers 和一个最小合成设置中验证了该规则,并提供了一个简单的诊断方法,匹配最大奇异值,以检查子层增益不变性。 我们的结果通过显式控制优化器设定的稳态尺度,将$\mu$P 扩展到接近初始区域之外,为 AdamW 下的宽度鲁棒超参数迁移提供了一个实用的方案。
摘要: Empirical scaling laws prescribe how to allocate parameters, data, and compute, while maximal-update parameterization ($\mu$P) enables learning-rate transfer across widths by equalizing early-time update magnitudes. However, in modern scale-invariant architectures, training quickly enters an optimizer-governed steady state where normalization layers create backward scale sensitivity and the effective learning rate becomes width dependent, degrading $\mu$P transfer. We address this by introducing a weight-decay scaling rule for AdamW that preserves sublayer gain across widths. Empirically, the singular-value spectrum of each matrix parameter scales in norm as $\sqrt{\eta/\lambda}$ with an approximately invariant shape; under width scaling $d$, we observe that the top singular value scales approximately as $\sqrt{\eta/\lambda}\cdot d^{0.75}$. Combining this observation with the $\mu$P learning-rate rule $\eta_2\propto d^{-1}$ for matrix-like parameters implies an empirical weight-decay scaling rule $\lambda_2\propto \sqrt{d}$ that approximately keeps sublayer gains width invariant. Together with vector-like parameters trained at $\eta_1=\Theta_d(1)$ and $\lambda_1=0$, this yields \emph{zero-shot} transfer of both learning rate and weight decay from proxy to target widths, removing per-width sweeps. We validate the rule on LLaMA-style Transformers and in a minimal synthetic setting, and we provide a simple diagnostic, matching top singular values, to check sublayer-gain invariance. Our results extend $\mu$P beyond the near-init regime by explicitly controlling steady-state scales set by the optimizer, offering a practical recipe for width-robust hyperparameter transfer under AdamW.
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI); 机器学习 (stat.ML)
引用方式: arXiv:2510.15262 [cs.LG]
  (或者 arXiv:2510.15262v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.15262
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Zhiyuan Fan [查看电子邮件]
[v1] 星期五, 2025 年 10 月 17 日 02:58:35 UTC (137 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
cs.AI
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号