计算机科学 > 人工智能
[提交于 2024年6月6日
(v1)
,最后修订 2025年1月14日 (此版本, v2)]
标题: GenSafe:基于降阶马尔可夫决策过程模型的可推广安全增强器
标题: GenSafe: A Generalizable Safety Enhancer for Safe Reinforcement Learning Algorithms Based on Reduced Order Markov Decision Process Model
摘要: 安全强化学习(SRL)旨在通过引入安全约束,实现深度强化学习(DRL)算法的安全学习过程。然而,SRL方法的有效性通常依赖于准确的函数近似,这在早期学习阶段由于数据不足而尤为困难。为了解决这个问题,我们在本工作中引入了一种新颖的可推广安全增强器(GenSafe),它能够克服数据不足的挑战,并提高SRL方法的性能。利用模型降阶技术,我们首先提出了一种创新的方法来构建一个降阶马尔可夫决策过程(ROMDP),作为原始安全约束的低维近似器。然后,通过求解重新表述的基于ROMDP的约束,GenSafe优化智能体的动作,以增加约束满足的可能性。本质上,GenSafe充当了SRL算法的额外安全层。我们在多个SRL方法和基准问题上评估了GenSafe。结果表明,它能够提高安全性表现,尤其是在早期学习阶段,同时保持令人满意的任务性能。我们提出的GenSafe不仅为增强现有SRL方法提供了一种新措施,还显示出与各种SRL算法的广泛兼容性,使其适用于广泛的系统和SRL问题。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.