数学 > 优化与控制
[提交于 2025年7月11日
]
标题: 熵势场神经ODE的Polyak-Lojasiewicz不等式的普遍性
标题: Genericity of Polyak-Lojasiewicz Inequalities for Entropic Mean-Field Neural ODEs
摘要: 我们研究理想化深度残差神经网络(ResNets)的行为,该行为通过一个在连续性(或伴随传输)方程上设定的最优控制问题进行建模。 连续性方程描述了在层形成连续体的渐近 regime 中特征的统计演化。 速度场通过网络激活函数表示,该函数本身被视为网络参数(权重和偏置)统计分布的函数。 从数学角度来看,控制以松弛方式解释,其取值在参数集合上的概率测度空间中。 我们研究当成本泛函来自回归问题并包含对参数分布的额外熵正则化项时网络的最优行为。 在此框架下,我们特别关注稳定优化器的存在性——即成本的 Hessian 非退化的优化器。 我们证明,对于初始数据的一个开且稠密集(此处理解为特征及其相关标签的概率分布),存在控制问题的唯一稳定全局最小值。 此外,我们证明这些最小值满足局部 Polyak--Lojasiewicz 不等式,这可能导致当初始化足够接近最优参数时相应梯度下降的指数收敛。 因此,这一结果展示了在具有连续层的 ResNets 和熵惩罚下,Polyak--Lojasiewicz 条件在特征和标签分布方面的普遍性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.