Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2406.02871

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2406.02871 (cs)
[提交于 2024年6月5日 ]

标题: 声音启发式搜索值迭代用于具有可达性目标的无折扣部分可观察马尔可夫决策过程

标题: Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives

Authors:Qi Heng Ho, Martin S. Feather, Federico Rossi, Zachary N. Sunberg, Morteza Lahijanian
摘要: 部分可观测马尔可夫决策过程(POMDPs)是用于在转移和观测不确定性下进行序列决策的强大模型。 本文研究了在POMDP中一个具有挑战性且重要的问题,即(无限时间范围)最大可达概率问题(MRPP),其中目标是最大化达到某些目标状态的概率。 这在带有逻辑规范的模型检测中也是一个核心问题,并且是自然无折扣的(折扣因子为一)。 受针对折扣问题开发的点基方法成功的启发,我们研究了它们在MRPP中的扩展。 具体而言,我们专注于基于试验的启发式搜索价值迭代技术,并提出了一种新算法,该算法利用这些技术的优势以高效探索信念空间(通过价值界限进行有指导的搜索),同时解决了它们在处理无限时间范围问题中的循环问题的缺点。 该算法生成具有最优可达概率双界策略。 我们在一系列基准测试中进行了实验评估,结果表明,在几乎所有情况下,我们的算法在概率保证和计算时间方面都优于现有方法。
摘要: Partially Observable Markov Decision Processes (POMDPs) are powerful models for sequential decision making under transition and observation uncertainties. This paper studies the challenging yet important problem in POMDPs known as the (indefinite-horizon) Maximal Reachability Probability Problem (MRPP), where the goal is to maximize the probability of reaching some target states. This is also a core problem in model checking with logical specifications and is naturally undiscounted (discount factor is one). Inspired by the success of point-based methods developed for discounted problems, we study their extensions to MRPP. Specifically, we focus on trial-based heuristic search value iteration techniques and present a novel algorithm that leverages the strengths of these techniques for efficient exploration of the belief space (informed search via value bounds) while addressing their drawbacks in handling loops for indefinite-horizon problems. The algorithm produces policies with two-sided bounds on optimal reachability probabilities. We prove convergence to an optimal policy from below under certain conditions. Experimental evaluations on a suite of benchmarks show that our algorithm outperforms existing methods in almost all cases in both probability guarantees and computation time.
评论: 被接受至人工智能不确定性会议(UAI)2024
主题: 人工智能 (cs.AI) ; 计算机科学中的逻辑 (cs.LO); 机器人技术 (cs.RO); 系统与控制 (eess.SY)
引用方式: arXiv:2406.02871 [cs.AI]
  (或者 arXiv:2406.02871v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2406.02871
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Qi Heng Ho [查看电子邮件]
[v1] 星期三, 2024 年 6 月 5 日 02:33:50 UTC (300 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-06
切换浏览方式为:
cs
cs.LO
cs.RO
cs.SY
eess
eess.SY

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号