计算机科学 > 人工智能
[提交于 2024年6月5日
]
标题: 声音启发式搜索值迭代用于具有可达性目标的无折扣部分可观察马尔可夫决策过程
标题: Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives
摘要: 部分可观测马尔可夫决策过程(POMDPs)是用于在转移和观测不确定性下进行序列决策的强大模型。 本文研究了在POMDP中一个具有挑战性且重要的问题,即(无限时间范围)最大可达概率问题(MRPP),其中目标是最大化达到某些目标状态的概率。 这在带有逻辑规范的模型检测中也是一个核心问题,并且是自然无折扣的(折扣因子为一)。 受针对折扣问题开发的点基方法成功的启发,我们研究了它们在MRPP中的扩展。 具体而言,我们专注于基于试验的启发式搜索价值迭代技术,并提出了一种新算法,该算法利用这些技术的优势以高效探索信念空间(通过价值界限进行有指导的搜索),同时解决了它们在处理无限时间范围问题中的循环问题的缺点。 该算法生成具有最优可达概率双界策略。 我们在一系列基准测试中进行了实验评估,结果表明,在几乎所有情况下,我们的算法在概率保证和计算时间方面都优于现有方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.