计算机科学 > 机器学习
[提交于 2024年9月25日
]
标题: 连续时间强化学习的随机测度方法
标题: A random measure approach to reinforcement learning in continuous time
摘要: 我们提出了一种随机测度方法,用于在具有受控扩散和跳跃的连续时间强化学习(RL)中对探索进行建模,即执行测度值控制。 首先,我们考虑在连续时间中对随机控制进行采样的情况发生在离散时间网格上,并将由此产生的随机微分方程(SDE)重新表述为由适当随机测度驱动的方程。 这些随机测度的构造利用了布朗运动和泊松随机测度(这是原始模型动力学中的噪声来源)以及在网格上为控制执行采样的附加随机变量。 然后,我们证明了当采样网格的网格大小趋近于零时这些随机测度的极限定理,这导致了一个由白噪声随机测度和泊松随机测度共同驱动的网格采样极限SDE。 我们还指出,网格采样极限SDE可以替代最近连续时间RL文献中的探索性SDE和样本SDE,即它可以用于探索性控制问题的理论分析以及学习算法的推导。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.