计算机科学 > 机器学习
[提交于 2025年6月14日
]
标题: 你的批量大小是问题所在吗? 重温语言建模中的Adam-SGD差距
标题: Is your batch size the problem? Revisiting the Adam-SGD gap in language modeling
摘要: Adam 在语言模型中表现明显优于随机梯度下降(SGD),对此现象已有多种解释。在这项工作中,我们通过一系列全面调整的 Transformer 语言模型训练运行重新审视了这一“优化器差距”。我们系统地研究了动量、梯度裁剪和批量大小对 SGD 和 Adam 之间差距的影响。我们的实证结果显示,如果正确调优,带有动量的 SGD 实际上可以在小批量设置下表现出与 Adam 类似的性能。我们重新审视了现有解释 Adam 优势的因素,包括重尾类不平衡、方向锐度和 Hessian 异质性,这些因素难以直接解释该现象。为了弥合理解上的差距,通过对我们的 Transformer 训练运行以及受文献启发的简单二次设置进行分析,我们基于随机微分方程模型提供了新的见解,揭示了批量大小在训练动力学中的作用。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.