计算机科学 > 机器学习
[提交于 2025年8月28日
]
标题: MERIT:语言模型大批次训练的最大归一化逐元素比率
标题: MERIT: Maximum-normalized Element-wise Ratio for Language Model Large-batch Training
摘要: 大规模批量训练已成为加速深度神经网络训练的核心方法,但其在优化和泛化方面带来了挑战。 现有的优化器如AdamW在语言模型的大规模批量训练中会出现性能下降,这是由于注意力层中的信息瓶颈导致最大注意力logit急剧增加。 虽然LAMB优化器部分解决了这个问题,但某些注意力层仍然面临这一问题。 原因是LAMB中的$l_2$-范数信任比例在直接影响查询/键权重的最大值方面效果不佳。 此外,LAMB中的逐权重信任比例容易出错,因为它忽略了行或列内权重值之间的关系。 基于这些观察,我们提出了一种新的优化器MERIT,它利用最大范数来计算信任比例,以更有效地约束最大注意力logit。 此外,我们进一步构建了逐元素的信任比例,通过关注局部权重结构来提供更稳健的更新缩放。 在各种大小的GPT-2模型上的大规模批量训练的广泛实验表明了MERIT的优越性能。 值得注意的是,在GPT-2 Medium的训练中,MERIT使批量大小达到6k时,与标准批量大小(480)相比,使用48B训练标记时没有性能下降。 这项工作强调了在大规模批量训练中考虑最大注意力logit和更细粒度信任比例的重要性。 它成功地提高了训练稳定性,并为使用更大的批量铺平了道路,从而加快了大型语言模型的开发和迭代。 代码可在https://github.com/NUS-HPC-AI-Lab/MERIT获得。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.