计算机科学 > 人工智能
[提交于 2024年6月4日
]
标题: 随机蒙特卡罗树搜索中的幂均值估计
标题: Power Mean Estimation in Stochastic Monte-Carlo Tree_Search
摘要: 蒙特卡洛树搜索(MCTS)是一种广泛用于在线规划的策略,它结合了蒙特卡洛采样和前向树搜索。 其成功依赖于树的上限置信度(UCT)算法,这是多臂老虎机问题中UCB方法的扩展。 然而,由于动作选择中的对数奖励项存在错误,UCT的理论基础不完整,导致开发了固定深度-MCTS,采用多项式探索奖励以平衡探索与利用~\citep{shah2022journal}。 UCT和固定深度-MCTS都存在价值估计偏差:加权和低估了最优值,而最大值估值则高估了它~\citep{coulom2006efficient}。 幂均值估计器提供了一个平衡的解决方案,位于平均值和最大值之间。 Power-UCT~\citep{dam2019generalized}结合了该估计器以获得更准确的价值估计,但其理论分析仍不完整。 本文介绍了随机-Power-UCT,一种使用幂均值估计器并针对随机MDP设计的MCTS算法。 我们分析了其在估计根节点价值方面的多项式收敛性,并表明其具有与固定深度-MCTS相同的收敛率$\mathcal{O}(n^{-1/2})$,其中$n$是访问轨迹的数量,后者是前者的一个特例。 我们的理论结果在各种随机MDP环境中通过实证测试得到了验证。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.