统计学 > 计算
[提交于 2025年7月1日
]
标题: 利用强化学习的力量进行自适应MCMC
标题: Harnessing the Power of Reinforcement Learning for Adaptive MCMC
摘要: 采样算法驱动概率机器学习,近年来在这一任务上的工具多样性出现了爆炸式增长。 然而,采样算法的日益复杂性与调参负担的增加密切相关。 现在比以往任何时候都更需要将采样器的调参视为一个独立的学习任务。 在概念上的突破中,Wang 等人(2025)将梅特罗波利斯-哈斯廷斯算法形式化为马尔可夫决策过程,开启了使用强化学习(RL)进行自适应调参的可能性。 他们的重点在于理论基础;实现强化学习梅特罗波利斯-哈斯廷斯(RLMH)的实际好处留给了后续工作。 本文的目的有两个:首先,我们观察到一个令人惊讶的结果,即自然选择的奖励,如接受率或期望平方跳跃距离,对于训练 RLMH 提供的信号不足。 相反,我们提出了一种基于对比发散的新奖励,在 RLMH 的背景下展示了其优越性能。 其次,我们探索了 RLMH 的潜力,并提出了自适应梯度基采样器,这些采样器在马尔可夫转移核的灵活性与相关 RL 任务的学习性之间取得平衡。 使用后验数据库基准的全面模拟研究支持了 RLMH 的实际有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.