计算机科学 > 人工智能
[提交于 2024年6月5日
(v1)
,最后修订 2024年6月8日 (此版本, v2)]
标题: 风险规避POMDP的简化与性能保证
标题: Simplification of Risk Averse POMDPs with Performance Guarantees
摘要: 风险规避的决策制定在部分可观察领域中的不确定性下是人工智能中的一个基本问题,对于可靠的自主代理至关重要。 在我们的案例中,该问题使用部分可观察马尔可夫决策过程(POMDPs)进行建模,其中价值函数是回报的条件风险价值(CVaR)。 一般来说,计算POMDPs的最优解在计算上是不可行的。 在这项工作中,我们开发了一个简化框架,以加快价值函数的评估,同时提供性能保证。 我们将计算成本更低的信念-MDP转移模型视为一种简化,这可以对应于更便宜的观察或转移模型。 我们的贡献包括适用于CVaR的一般界限,这些界限允许通过假设它们的累积分布之间的界限,使用随机变量Y来限制随机变量X的CVaR。 然后,我们推导了POMDP设置下的CVaR价值函数的界限,并展示了如何使用计算成本更低的信念-MDP转移模型来限制价值函数,而无需在实时中访问计算成本高昂的模型。 随后,我们提供了对估计界限的理论性能保证。 我们的结果适用于信念-MDP转移模型的一般简化,并支持同时简化观察和状态转移模型。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.