统计学 > 机器学习
[提交于 2019年2月14日
(v1)
,最后修订 2020年1月13日 (此版本, v4)]
标题: 蒙特卡罗树搜索的非渐近分析
标题: Non-Asymptotic Analysis of Monte Carlo Tree Search
摘要: 在本工作中,我们考虑在无限时域折扣成本马尔可夫决策过程(MDP)框架内的强化学习中流行的基于树的搜索策略,即蒙特卡洛树搜索(MCTS)。 虽然认为MCTS在足够模拟的情况下可以为给定状态提供近似值函数,但早期工作的声称证明是不完整的。 这是由于先前工作中分析的变体,即基于树的上界置信度(UCT),在树搜索中使用了“对数”奖励项来平衡探索与利用,这源于随机多臂老虎机(MAB)文献中的见解。 实际上,这种方法假设了底层递归依赖的非平稳MAB的遗憾在步骤数上以指数方式集中在均值附近,正如文献中指出的那样,即使对于平稳MAB来说,这种情况也很可能不成立。 作为本工作的关键贡献,我们建立了非平稳MAB类的遗憾的多项式集中性质。 反过来,这证明了在UCB中使用适当的多项式而非对数奖励项的MCTS具有所声称的性质。 以此为基础,我们论证了MCTS结合最近邻监督学习起到了“策略改进”算子的作用:由于结合了监督学习,它迭代地改进所有状态的值函数近似,尽管只评估有限数量的状态。 实际上,我们建立了为了在$\ell_\infty$范数下学习值函数的$\varepsilon$近似,MCTS结合最近邻所需的样本量按$\widetilde{O}\big(\varepsilon^{-(d+4)}\big)$增长,其中$d$是状态空间的维度。 由于存在$\widetilde{\Omega}\big(\varepsilon^{-(d+2)}\big)$的最小最大下界,这是几乎最优的。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.