计算机科学 > 机器学习
[提交于 2025年6月28日
]
标题: 脆弱、稳健和反脆弱:压力下强化学习中参数响应的视角
标题: Fragile, Robust, and Antifragile: A Perspective from Parameter Responses in Reinforcement Learning Under Stress
摘要: 本文通过系统分析在内部和外部压力下的网络参数,探讨了强化学习(RL)策略的鲁棒性。 受神经科学中突触可塑性的启发,突触过滤通过选择性地扰动参数来引入内部压力,而对抗攻击则通过修改智能体观察来施加外部压力。 这种双重方法使参数可以根据其在干净和对抗环境中的策略性能影响被分类为脆弱、鲁棒或反脆弱。 定义了参数得分以量化这些特性,并在Mujoco连续控制环境中对PPO训练的智能体进行了框架验证。 结果表明存在在压力下能增强策略性能的反脆弱参数,证明了有针对性的过滤技术可以提高RL策略的适应性。 这些见解为未来设计稳健和反脆弱的RL系统的进步提供了基础。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.