计算机科学 > 机器人技术
[提交于 2025年5月1日
]
标题: 多约束安全强化学习通过控制屏障函数的Log-Sum-Exp近似闭式解实现
标题: Multi-Constraint Safe Reinforcement Learning via Closed-form Solution for Log-Sum-Exp Approximation of Control Barrier Functions
摘要: 训练任务策略的安全性及其后续使用强化学习(RL)方法的应用已成为安全RL领域的一个焦点。该领域中的一个核心挑战仍然是在学习和部署过程中建立理论安全保证。 鉴于基于控制屏障函数(CBF)的安全策略在一系列仿射控制机器人系统中的成功实施,基于CBF的RL展示了在现实场景中实际应用的巨大潜力。然而,将这两种方法结合起来提出了几个挑战。 首先,将安全优化嵌入到RL训练管道中要求优化输出相对于输入参数可微,这通常被称为可微优化,解决起来并不简单。 其次,可微优化框架面临显著的效率问题,尤其是在处理多约束问题时。 为了解决这些挑战,本文提出了一种基于CBF的RL架构,有效地缓解了上述问题。 所提出的方案通过单一复合CBF构建多个约束的连续AND逻辑近似。通过利用这一近似,推导出了RL中策略网络的二次规划的闭式解,从而避免了在端到端安全RL管道中需要可微优化。 由于闭式解的存在,这种策略显著降低了计算复杂度,同时保持了安全保证。 仿真结果显示,与依赖可微优化的现有方法相比,所提出的方法显著减少了训练计算成本,并在整个训练过程中确保了可证明的安全性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.