计算机科学 > 机器学习
[提交于 2025年7月16日
]
标题: 优化器定性地改变解,而我们应该利用这一点
标题: Optimizers Qualitatively Alter Solutions And We Should Leverage This
摘要: 由于深度神经网络(DNNs)的非线性特性,仅依赖局部信息的优化器(如SGD)无法保证收敛到损失函数的唯一全局最小值。 事实上,在该领域早期,这曾是人们对DNN可行性的主要怀疑来源。 过去几十年深度学习的进步表明这种怀疑是错误的,大量实证证据显示,遵循标准训练协议的足够大的DNN表现出良好的优化动态,能够收敛到性能良好的解决方案。 这种成功使社区倾向于将凸优化作为学习的心理模型,从而在改进优化器时,要么关注所需的迭代次数,要么关注FLOPs或墙钟时间的训练效率。 我们认为,尽管这一观点已被证明非常有成效,但针对DNN的另一个特定视角却受到了相当少的关注:优化器不仅影响收敛速度,还影响学习解决方案的定性属性。 换句话说,优化器可以并且会编码归纳偏置并改变给定模型类的有效表达能力。 此外,我们认为优化器可以是编码学习过程中期望目标的一种有效方式。 我们认为,社区应致力于理解现有方法的偏差,并旨在构建具有明确意图诱导某些解决方案属性的新优化器,而不是仅仅根据它们的收敛速度来评判它们。 我们希望我们的论点能激发研究,以改善我们对学习过程如何影响我们收敛到的解决方案类型的理解,并促使人们对优化器设计的重要性有更深刻的认识,作为补充架构和数据在塑造模型结果中的作用的关键杠杆。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.