数学 > 优化与控制
[提交于 2023年3月28日
(v1)
,最后修订 2023年3月31日 (此版本, v2)]
标题: 基于无限时间范围的部分观测最坏情况控制与学习
标题: Worst-Case Control and Learning Using Partial Observations Over an Infinite Time-Horizon
摘要: 需要控制策略在最坏情况下对对抗性干扰和建模不确定性具有鲁棒性的安全关键网络物理系统。在本文中,我们提出了一种框架,用于部分观测系统的近似控制和学习,以最小化无限时间范围内的最坏情况折扣成本。我们将系统干扰建模为具有未知概率分布的有限值不确定变量。对于已知系统动态的问题,我们构建了一个动态规划(DP)分解来计算最优控制策略。我们的第一个贡献是定义信息状态,这可以在不损失最优性的情况下提高此DP的计算可行性。然后,我们描述了一类问题的简化方法,其中每个时间实例产生的成本都是可观察的。我们的第二个贡献是定义了一个近似信息状态,该状态可以或直接从观察到的数据中构建或学习,适用于具有可观察成本的问题。我们推导了由此产生的近似控制策略的性能损失界限,并通过一个数值示例展示了我们在部分观测决策问题中的方法的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.