计算机科学 > 机器学习
[提交于 2025年7月8日
]
标题: KPFlow:从算子角度看待递归网络梯度下降训练中的动态崩溃
标题: KPFlow: An Operator Perspective on Dynamic Collapse Under Gradient Descent Training of Recurrent Networks
摘要: 梯度下降(GD)及其变体是用于实现循环动力系统(如循环神经网络(RNNs)、神经ODE和门控循环单元(GRUs))高效训练的主要工具。 这些模型中形成的动态表现出神经坍缩和潜在表示等特征,这些特征可能支持网络的显著泛化能力。 在神经科学中,这些表示的定性特征被用来比较生物系统和人工系统中的学习。 尽管最近取得了进展,但仍需要理论工具来严格理解塑造学习表示的机制,特别是在有限的非线性模型中。 在这里,我们展示了描述模型动态如何随GD演变的梯度流,可以分解为涉及两个算子的乘积:参数算子K和线性化流传播算子P。K反映了前馈神经网络中的神经切线核,而P出现在李雅普诺夫稳定性与最优控制理论中。 我们展示了该分解的两个应用。 首先,我们展示了它们的相互作用如何在GD下产生低维潜在动态,并且特别说明了坍缩是网络结构的结果,而不仅仅是底层任务的性质。 其次,在多任务训练中,我们展示了这些算子可以用来衡量与单个子任务相关的目标之间的一致性。 我们通过实验和理论验证了这些发现,提供了一个高效的Pytorch包,\emph{KPFlow},用于实现针对一般循环架构的鲁棒分析工具。 综上所述,我们的工作朝着建立对非线性循环模型中GD学习的下一阶段理解迈出了重要一步。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.