计算机科学 > 人工智能
[提交于 2024年6月4日
]
标题: 表格方法和深度学习用于威特指数
标题: Tabular and Deep Learning for the Whittle Index
摘要: Whittle指数策略是一种启发式方法,在应用于被称为“非静止多臂老虎机问题”(RMABPs)的问题类别时表现出显著优异的性能(具有保证的渐近最优性)。 在本文中,我们提出了QWI和QWINN两种强化学习算法,分别采用表格形式和深度学习方法,以学习总折扣准则下的Whittle指数。 关键特点是使用两个时间尺度,一个较快的时间尺度用于更新状态-动作Q值,一个相对较慢的时间尺度用于更新Whittle指数。 在我们的主要理论结果中,我们证明了QWI(一种表格实现)收敛到真实的Whittle指数。 然后我们提出了QWINN,这是一种利用神经网络在较快时间尺度上计算Q值的QWI算法的改进版本,能够从一个状态推断出另一个状态的信息,并自然地扩展到大型状态空间环境。 对于QWINN,我们证明了Bellman误差的所有局部最小值都是局部稳定的平衡点,这是基于DQN的方案中的首个此类结果。 数值计算表明,QWI和QWINN比标准的Q学习算法、基于神经网络的近似Q学习和其他最先进的算法收敛得更快。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.