计算机科学 > 机器学习
标题: 用于具有不完全观测的 restless bandits 的低复杂度算法
标题: Low-Complexity Algorithm for Restless Bandits with Imperfect Observations
摘要: 我们考虑一类在随机优化、强化学习和运筹学中有广泛应用的 restless bandit 问题。 我们考虑$N$个独立的离散时间马尔可夫过程,每个过程都有两个可能的状态:1 和 0(“好”和“坏”)。 只有当一个过程处于状态 1 并且被观察到时才会产生奖励。 目标是在无限时间范围内最大化回报的期望折扣总和,同时满足每一步只能观察$M$ $(<N)$ 个过程的约束条件。 观察是容易出错的:已知状态 1(0)会被观察为 0(1)的概率。 由此可知,在任何时间$t$,过程$i$处于状态 1 的概率。 该系统可以建模为一个具有不可数基数信息状态空间的 restless 多臂老虎机问题。 即使具有有限状态空间的 restless bandit 问题,在一般情况下也是 PSPACE-HARD 的。 我们提出了一种简化这类 restless bandits 动态规划方程的新方法,并开发了一个低复杂度的算法,该算法表现出良好的性能,并易于扩展到具有观测误差的一般 restless bandit 模型。 在某些条件下,我们建立了 Whittle 指数的存在性(可索引性)及其与我们算法的等价性。 当这些条件不成立时,我们通过数值实验展示了我们的算法在一般参数空间中的近似最优性能。 最后,我们理论证明了我们的算法在同质系统中的最优性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.