数学 > 优化与控制
[提交于 2020年12月1日
(v1)
,最后修订 2020年12月24日 (此版本, v4)]
标题: 带有部分信息的弱耦合随机动态规划的整数规划
标题: Integer programming for weakly coupled stochastic dynamic programs with partial information
摘要: 本文介绍了在决策者必须控制由多个组件组成的系统并且只能获得每个组件状态的部分信息的问题的算法。 此类问题具有挑战性,因为存在部分观测问题,并且当组件数量增加时会出现维度灾难问题。 部分可观测马尔可夫决策过程(POMDPs)被引入以处理第一个挑战,而弱耦合随机动态规划则处理第二个挑战。 结合文献中的这两个分支,我们引入了弱耦合POMDP的概念。 目标是找到一个策略,在有限时间范围内最大化总期望奖励。 我们的算法依赖于两个要素。 第一个要素可以独立使用,是一个针对通用POMDP的混合整数线性公式,用于计算最优的无记忆策略。 该公式通过基于随机变量之间依赖关系的概率解释的有效切割进行强化,其线性松弛为最优历史依赖策略的价值提供了实际紧致的上界。 第二个要素是一系列数学规划公式和算法,这些公式和算法为弱耦合POMDP提供可行的策略和上界。 拉格朗日松弛、流近似和几乎必然约束松弛有助于克服维度灾难。 我们在文献中的基准实例上测试了我们的通用POMDP公式,并在维护问题上测试了我们的弱耦合POMDP算法。 数值实验表明了我们方法的效率。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.