计算机科学 > 机器学习
[提交于 2025年7月16日
]
标题: 在线深度强化学习网络的训练与剪枝
标题: Online Training and Pruning of Deep Reinforcement Learning Networks
摘要: 在强化学习(RL)算法中,对深度神经网络(NN)进行扩展已被证明在使用特征提取网络时可以提高性能,但获得的性能提升伴随着计算和内存复杂性的显著增加。 在监督学习中,神经网络剪枝方法已成功解决了这一挑战。 然而,它们在RL中的应用仍研究不足。 我们提出了一种方法,将同时训练和剪枝集成到先进的RL方法中,特别是针对由在线特征提取网络(OFENet)增强的RL算法。 我们的网络(XiNet)被训练以在RL网络的权重和用于0/1随机变量的变分伯努利分布参数上解决随机优化问题,$\xi$用于缩放网络中的每个单元。 随机问题公式引入了正则化项,当一个单元对性能贡献较小时,这些项会促进变分参数收敛到0。 在这种情况下,相应的结构被永久禁用并从其网络中剪枝。 我们提出了一种成本感知的、促进稀疏性的正则化方案,专门针对OFENets的DenseNet架构,以这些网络中随机变量(RVs)的参数来表达涉及网络的参数复杂性。 然后,当将此成本与正则化项匹配时,与它们相关的许多超参数会被自动选择,从而有效地结合RL目标和网络压缩。 我们在连续控制基准(MuJoCo)和Soft Actor-Critic RL代理上评估了我们的方法,结果表明OFENets可以大幅剪枝而性能损失很小。 此外,我们的结果证实,在训练过程中对大型网络进行剪枝会产生更高效且性能更好的RL代理,而不是从头开始训练较小的网络。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.