Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > math > arXiv:2506.22851

帮助 | 高级搜索

数学 > 优化与控制

arXiv:2506.22851 (math)
[提交于 2025年6月28日 ]

标题: 深度神经网络可以证明在没有维度灾难的情况下求解马尔可夫决策过程的贝尔曼方程

标题: Deep neural networks can provably solve Bellman equations for Markov decision processes without the curse of dimensionality

Authors:Arnulf Jentzen, Konrad Kleinberg, Thomas Kruse
摘要: 离散时间随机最优控制问题和马尔可夫决策过程(MDPs)是不确定环境下顺序决策的基本模型,因此提供了强化学习理论的数学框架。 求解MDPs的核心工具是贝尔曼方程及其解,即所谓的$Q$-函数。 在本文中,我们构建了用于无限时间范围且有限控制集$A$的MDPs相关$Q$-函数的深度神经网络(DNN)近似。 更具体地说,我们证明了如果MDP的收益函数和随机转移动态可以被具有泄漏整流线性单元(ReLU)激活函数的深度神经网络(DNN)适当近似,那么相关贝尔曼方程的解$Q_d\colon \mathbb R^d\to \mathbb R^{|A|}$,$d\in \mathbb{N}$也可以通过具有泄漏ReLU激活函数的DNN在$L^2$-意义下进行近似,这些DNN的参数数量在状态空间的维数$d\in \mathbb{N}$和预定误差$\varepsilon\in (0,1)$的倒数$1/\varepsilon$上最多以多项式速率增长。我们的证明依赖于最近引入的全历史递归多级固定点(MLFP)近似方案。
摘要: Discrete time stochastic optimal control problems and Markov decision processes (MDPs) are fundamental models for sequential decision-making under uncertainty and as such provide the mathematical framework underlying reinforcement learning theory. A central tool for solving MDPs is the Bellman equation and its solution, the so-called $Q$-function. In this article, we construct deep neural network (DNN) approximations for $Q$-functions associated to MDPs with infinite time horizon and finite control set $A$. More specifically, we show that if the the payoff function and the random transition dynamics of the MDP can be suitably approximated by DNNs with leaky rectified linear unit (ReLU) activation, then the solutions $Q_d\colon \mathbb R^d\to \mathbb R^{|A|}$, $d\in \mathbb{N}$, of the associated Bellman equations can also be approximated in the $L^2$-sense by DNNs with leaky ReLU activation whose numbers of parameters grow at most polynomially in both the dimension $d\in \mathbb{N}$ of the state space and the reciprocal $1/\varepsilon$ of the prescribed error $\varepsilon\in (0,1)$. Our proof relies on the recently introduced full-history recursive multilevel fixed-point (MLFP) approximation scheme.
主题: 优化与控制 (math.OC) ; 机器学习 (cs.LG); 数值分析 (math.NA); 概率 (math.PR); 机器学习 (stat.ML)
MSC 类: 90C40, 90C39, 60J05, 93E20, 65C05, 68T07
引用方式: arXiv:2506.22851 [math.OC]
  (或者 arXiv:2506.22851v1 [math.OC] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.22851
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Thomas Kruse [查看电子邮件]
[v1] 星期六, 2025 年 6 月 28 日 11:25:44 UTC (48 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
math.OC
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.LG
cs.NA
math
math.NA
math.PR
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号