计算机科学 > 机器学习
[提交于 2025年10月20日
]
标题: 一种拉格朗日方法在安全强化学习中的实证研究
标题: An Empirical Study of Lagrangian Methods in Safe Reinforcement Learning
摘要: 在安全关键领域,如机器人技术、导航和电力系统中,会出现需要平衡性能与相关约束的约束优化问题。 安全强化学习提供了一个框架来解决这些挑战,其中拉格朗日方法是一种常用的选择。 然而,拉格朗日方法的有效性在很大程度上取决于拉格朗日乘子$\lambda$的选择,该乘子控制回报与约束成本之间的权衡。 一种常见方法是在训练过程中自动更新该乘子。 尽管这在实践中是标准的,但关于自动更新的鲁棒性及其对整体性能的影响,仍缺乏充分的实证证据。 因此,我们分析了(i)安全强化学习中拉格朗日乘子的最优性以及(ii)其稳定性,涵盖多种任务。 我们提供了$\lambda$-轮廓图,这些图完整地展示了优化问题中回报与约束成本之间的权衡。 这些轮廓图显示了$\lambda$的高度敏感性,并进一步确认了在选择最优值$\lambda^*$时缺乏普遍的直觉。 我们的研究结果还表明,由于它们的学习轨迹存在巨大差异,自动乘子更新能够恢复甚至有时超过在$\lambda^*$处找到的最优性能。 此外,我们展示了自动乘子更新在训练过程中表现出振荡行为,这种行为可以通过 PID 控制的更新来缓解。 然而,这种方法需要仔细调整,以在各种任务中实现一致更好的性能。 这突显了在安全强化学习中进一步研究稳定拉格朗日方法的必要性。 用于重现我们结果的代码可在 https://github.com/lindsayspoor/Lagrangian_SafeRL 找到。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.