计算机科学 > 机器学习
[提交于 2025年8月16日
(v1)
,最后修订 2025年8月24日 (此版本, v3)]
标题: 状态与参数在循环神经网络中的时间尺度耦合
标题: Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks
摘要: 我们研究循环神经网络(RNNs)中的门控机制如何在使用固定全局学习率进行训练时,隐式地诱导自适应学习率行为。 这种效应源于状态空间时间尺度(由门控参数化)与梯度下降过程中参数空间动力学之间的耦合。 通过推导漏电积分器和门控RNN的精确雅可比矩阵,我们得到一个一阶展开,明确说明了常数、标量和多维门控如何重塑梯度传播,调节有效步长,并在参数更新中引入各向异性。 这些发现表明,门控不仅控制信息流,还作为数据驱动的预条件器,在参数空间中适应优化轨迹。 我们进一步将门控与学习率调度、动量以及自适应方法如Adam进行了形式类比。 实证模拟验证了这些观点:在多个序列任务中,我们展示了门控引起的依赖延迟的有效学习率和梯度流的方向性集中,多门控模型的表现与Adam产生的各向异性结构相当或更优。 这些结果表明,优化器驱动和门控驱动的自适应性是互补而非等价的机制。 总体而言,这项工作提供了一个统一的动力系统视角,解释了门控如何将状态演化与参数更新耦合在一起,从而说明了为什么门控架构在实践中能够实现鲁棒的可训练性和稳定性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.