计算机科学 > 机器学习
[提交于 2025年7月17日
]
标题: 基于模型的控制的无模型强化学习:迈向安全、可解释和样本高效的智能体
标题: Model-free Reinforcement Learning for Model-based Control: Towards Safe, Interpretable and Sample-efficient Agents
摘要: 在不确定性下训练复杂的智能体以实现最优决策是现代自主系统在各领域快速发展的关键。 值得注意的是,无模型强化学习(RL)使决策智能体能够通过与系统的交互直接提升性能,而无需对系统有太多先验知识。 然而,无模型RL通常依赖于配备深度神经网络函数近似器的智能体,利用网络的表达能力来捕捉智能体的策略和价值函数以应对复杂系统。 然而,神经网络会加剧无模型RL中的样本效率低下、不安全学习和可解释性有限等问题。 为此,本工作引入了基于模型的智能体作为控制策略近似的一种有吸引力的替代方案,利用可调节的系统动力学、成本和约束模型进行安全策略学习。 这些模型可以编码先验系统知识,以指导、约束并帮助解释智能体的决策,而由于模型不匹配导致的缺陷可以通过无模型RL进行弥补。 我们概述了学习基于模型的智能体的优势和挑战——以模型预测控制为例,并详细介绍了主要的学习方法:贝叶斯优化、策略搜索RL和离线策略,以及它们各自的优势。 尽管无模型RL早已确立,但其与基于模型的智能体之间的相互作用仍大多未被探索,这促使我们从它们结合潜力的角度出发,探讨其在样本高效学习安全且可解释的决策智能体方面的前景。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.