Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2108.07555

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2108.07555 (cs)
[提交于 2021年8月17日 ]

标题: 具有随机延迟的强化学习中的状态增强方法再探

标题: Revisiting State Augmentation methods for Reinforcement Learning with Stochastic Delays

Authors:Somjit Nath, Mayank Baranwal, Harshad Khadilkar
摘要: 许多现实世界场景(如远程控制和传感)都涉及动作和观察的延迟。 延迟的存在会降低强化学习(RL)算法的性能,常常严重到这些算法无法学到实质性内容的地步。 本文正式描述了带有随机延迟的马尔可夫决策过程(MDP)的概念,并证明带延迟的MDP可以被转化为具有显著简化成本结构的等效标准MDP(无延迟)。 我们利用这种等价性推导出了一种无模型的延迟解析RL框架,并表明即使基于此框架构建的简单RL算法,在带有随机动作和观察延迟的环境中也能获得接近最优的奖励。 延迟解析深度Q网络(DRDQN)算法在包含多步和随机延迟的各种环境中进行了基准测试,在实现接近最优奖励以及最小化计算开销方面,相对于目前已确立的算法表现更好。
摘要: Several real-world scenarios, such as remote control and sensing, are comprised of action and observation delays. The presence of delays degrades the performance of reinforcement learning (RL) algorithms, often to such an extent that algorithms fail to learn anything substantial. This paper formally describes the notion of Markov Decision Processes (MDPs) with stochastic delays and shows that delayed MDPs can be transformed into equivalent standard MDPs (without delays) with significantly simplified cost structure. We employ this equivalence to derive a model-free Delay-Resolved RL framework and show that even a simple RL algorithm built upon this framework achieves near-optimal rewards in environments with stochastic delays in actions and observations. The delay-resolved deep Q-network (DRDQN) algorithm is bench-marked on a variety of environments comprising of multi-step and stochastic delays and results in better performance, both in terms of achieving near-optimal rewards and minimizing the computational overhead thereof, with respect to the currently established algorithms.
评论: 已被CIKM'21接受
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI); 系统与控制 (eess.SY); 优化与控制 (math.OC)
引用方式: arXiv:2108.07555 [cs.LG]
  (或者 arXiv:2108.07555v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2108.07555
通过 DataCite 发表的 arXiv DOI
相关 DOI: https://doi.org/10.1145/3459637.3482386
链接到相关资源的 DOI

提交历史

来自: Mayank Baranwal [查看电子邮件]
[v1] 星期二, 2021 年 8 月 17 日 10:45:55 UTC (4,720 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2021-08
切换浏览方式为:
cs
cs.AI
cs.SY
eess
eess.SY
math
math.OC

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号