Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > math > arXiv:2507.08486

帮助 | 高级搜索

数学 > 优化与控制

arXiv:2507.08486 (math)
[提交于 2025年7月11日 ]

标题: 熵势场神经ODE的Polyak-Lojasiewicz不等式的普遍性

标题: Genericity of Polyak-Lojasiewicz Inequalities for Entropic Mean-Field Neural ODEs

Authors:Samuel Daudin, François Delarue
摘要: 我们研究理想化深度残差神经网络(ResNets)的行为,该行为通过一个在连续性(或伴随传输)方程上设定的最优控制问题进行建模。 连续性方程描述了在层形成连续体的渐近 regime 中特征的统计演化。 速度场通过网络激活函数表示,该函数本身被视为网络参数(权重和偏置)统计分布的函数。 从数学角度来看,控制以松弛方式解释,其取值在参数集合上的概率测度空间中。 我们研究当成本泛函来自回归问题并包含对参数分布的额外熵正则化项时网络的最优行为。 在此框架下,我们特别关注稳定优化器的存在性——即成本的 Hessian 非退化的优化器。 我们证明,对于初始数据的一个开且稠密集(此处理解为特征及其相关标签的概率分布),存在控制问题的唯一稳定全局最小值。 此外,我们证明这些最小值满足局部 Polyak--Lojasiewicz 不等式,这可能导致当初始化足够接近最优参数时相应梯度下降的指数收敛。 因此,这一结果展示了在具有连续层的 ResNets 和熵惩罚下,Polyak--Lojasiewicz 条件在特征和标签分布方面的普遍性。
摘要: We address the behavior of idealized deep residual neural networks (ResNets), modeled via an optimal control problem set over continuity (or adjoint transport) equations. The continuity equations describe the statistical evolution of the features in the asymptotic regime where the layers of the network form a continuum. The velocity field is expressed through the network activation function, which is itself viewed as a function of the statistical distribution of the network parameters (weights and biases). From a mathematical standpoint, the control is interpreted in a relaxed sense, taking values in the space of probability measures over the set of parameters. We investigate the optimal behavior of the network when the cost functional arises from a regression problem and includes an additional entropic regularization term on the distribution of the parameters. In this framework, we focus in particular on the existence of stable optimizers --that is, optimizers at which the Hessian of the cost is non-degenerate. We show that, for an open and dense set of initial data, understood here as probability distributions over features and associated labels, there exists a unique stable global minimizer of the control problem. Moreover, we show that such minimizers satisfy a local Polyak--Lojasiewicz inequality, which can lead to exponential convergence of the corresponding gradient descent when the initialization lies sufficiently close to the optimal parameters. This result thus demonstrates the genericity (with respect to the distribution of features and labels) of the Polyak--Lojasiewicz condition in ResNets with a continuum of layers and under entropic penalization.
主题: 优化与控制 (math.OC) ; 偏微分方程分析 (math.AP); 概率 (math.PR)
引用方式: arXiv:2507.08486 [math.OC]
  (或者 arXiv:2507.08486v1 [math.OC] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.08486
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Samuel Daudin [查看电子邮件]
[v1] 星期五, 2025 年 7 月 11 日 11:04:46 UTC (112 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
math.OC
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
math
math.AP
math.PR

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号