Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.12224

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2507.12224 (cs)
[提交于 2025年7月16日 ]

标题: 优化器定性地改变解,而我们应该利用这一点

标题: Optimizers Qualitatively Alter Solutions And We Should Leverage This

Authors:Razvan Pascanu, Clare Lyle, Ionut-Vlad Modoranu, Naima Elosegui Borras, Dan Alistarh, Petar Velickovic, Sarath Chandar, Soham De, James Martens
摘要: 由于深度神经网络(DNNs)的非线性特性,仅依赖局部信息的优化器(如SGD)无法保证收敛到损失函数的唯一全局最小值。 事实上,在该领域早期,这曾是人们对DNN可行性的主要怀疑来源。 过去几十年深度学习的进步表明这种怀疑是错误的,大量实证证据显示,遵循标准训练协议的足够大的DNN表现出良好的优化动态,能够收敛到性能良好的解决方案。 这种成功使社区倾向于将凸优化作为学习的心理模型,从而在改进优化器时,要么关注所需的迭代次数,要么关注FLOPs或墙钟时间的训练效率。 我们认为,尽管这一观点已被证明非常有成效,但针对DNN的另一个特定视角却受到了相当少的关注:优化器不仅影响收敛速度,还影响学习解决方案的定性属性。 换句话说,优化器可以并且会编码归纳偏置并改变给定模型类的有效表达能力。 此外,我们认为优化器可以是编码学习过程中期望目标的一种有效方式。 我们认为,社区应致力于理解现有方法的偏差,并旨在构建具有明确意图诱导某些解决方案属性的新优化器,而不是仅仅根据它们的收敛速度来评判它们。 我们希望我们的论点能激发研究,以改善我们对学习过程如何影响我们收敛到的解决方案类型的理解,并促使人们对优化器设计的重要性有更深刻的认识,作为补充架构和数据在塑造模型结果中的作用的关键杠杆。
摘要: Due to the nonlinear nature of Deep Neural Networks (DNNs), one can not guarantee convergence to a unique global minimum of the loss when using optimizers relying only on local information, such as SGD. Indeed, this was a primary source of skepticism regarding the feasibility of DNNs in the early days of the field. The past decades of progress in deep learning have revealed this skepticism to be misplaced, and a large body of empirical evidence shows that sufficiently large DNNs following standard training protocols exhibit well-behaved optimization dynamics that converge to performant solutions. This success has biased the community to use convex optimization as a mental model for learning, leading to a focus on training efficiency, either in terms of required iteration, FLOPs or wall-clock time, when improving optimizers. We argue that, while this perspective has proven extremely fruitful, another perspective specific to DNNs has received considerably less attention: the optimizer not only influences the rate of convergence, but also the qualitative properties of the learned solutions. Restated, the optimizer can and will encode inductive biases and change the effective expressivity of a given class of models. Furthermore, we believe the optimizer can be an effective way of encoding desiderata in the learning process. We contend that the community should aim at understanding the biases of already existing methods, as well as aim to build new optimizers with the explicit intent of inducing certain properties of the solution, rather than solely judging them based on their convergence rates. We hope our arguments will inspire research to improve our understanding of how the learning process can impact the type of solution we converge to, and lead to a greater recognition of optimizers design as a critical lever that complements the roles of architecture and data in shaping model outcomes.
主题: 机器学习 (cs.LG)
引用方式: arXiv:2507.12224 [cs.LG]
  (或者 arXiv:2507.12224v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.12224
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Ionut-Vlad Modoranu [查看电子邮件]
[v1] 星期三, 2025 年 7 月 16 日 13:33:31 UTC (738 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号