计算机科学 > 机器学习
[提交于 2024年8月31日
]
标题: 基于软约束对手的鲁棒离策强化学习
标题: Robust off-policy Reinforcement Learning via Soft Constrained Adversary
摘要: 近年来,针对输入观测的鲁棒强化学习(RL)方法引起了广泛关注,并迅速发展,因为RL存在潜在的脆弱性。尽管这些先进方法取得了合理的成功,但在考虑长期范围内的对抗时存在两个局限性。 首先,策略与其对应最优对抗者之间的相互依赖关系限制了无策略RL算法的发展;虽然获得最优对抗者应该依赖当前策略,但这限制了无策略RL的应用。 其次,这些方法通常假设基于$L_p$-范数的扰动,即使在环境中已知扰动分布的情况下也是如此。 我们在此从另一个角度引入对抗性RL:一个带有先验知识分布的f-散度约束问题。 由此,我们推导出两种典型的攻击及其对应的鲁棒学习框架。 鲁棒性的评估显示,我们提出的方法在样本高效的无策略RL中表现出色。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.