Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:2507.00671

帮助 | 高级搜索

统计学 > 计算

arXiv:2507.00671 (stat)
[提交于 2025年7月1日 ]

标题: 利用强化学习的力量进行自适应MCMC

标题: Harnessing the Power of Reinforcement Learning for Adaptive MCMC

Authors:Congye Wang, Matthew A. Fisher, Heishiro Kanagawa, Wilson Chen, Chris. J. Oates
摘要: 采样算法驱动概率机器学习,近年来在这一任务上的工具多样性出现了爆炸式增长。 然而,采样算法的日益复杂性与调参负担的增加密切相关。 现在比以往任何时候都更需要将采样器的调参视为一个独立的学习任务。 在概念上的突破中,Wang 等人(2025)将梅特罗波利斯-哈斯廷斯算法形式化为马尔可夫决策过程,开启了使用强化学习(RL)进行自适应调参的可能性。 他们的重点在于理论基础;实现强化学习梅特罗波利斯-哈斯廷斯(RLMH)的实际好处留给了后续工作。 本文的目的有两个:首先,我们观察到一个令人惊讶的结果,即自然选择的奖励,如接受率或期望平方跳跃距离,对于训练 RLMH 提供的信号不足。 相反,我们提出了一种基于对比发散的新奖励,在 RLMH 的背景下展示了其优越性能。 其次,我们探索了 RLMH 的潜力,并提出了自适应梯度基采样器,这些采样器在马尔可夫转移核的灵活性与相关 RL 任务的学习性之间取得平衡。 使用后验数据库基准的全面模拟研究支持了 RLMH 的实际有效性。
摘要: Sampling algorithms drive probabilistic machine learning, and recent years have seen an explosion in the diversity of tools for this task. However, the increasing sophistication of sampling algorithms is correlated with an increase in the tuning burden. There is now a greater need than ever to treat the tuning of samplers as a learning task in its own right. In a conceptual breakthrough, Wang et al (2025) formulated Metropolis-Hastings as a Markov decision process, opening up the possibility for adaptive tuning using Reinforcement Learning (RL). Their emphasis was on theoretical foundations; realising the practical benefit of Reinforcement Learning Metropolis-Hastings (RLMH) was left for subsequent work. The purpose of this paper is twofold: First, we observe the surprising result that natural choices of reward, such as the acceptance rate, or the expected squared jump distance, provide insufficient signal for training RLMH. Instead, we propose a novel reward based on the contrastive divergence, whose superior performance in the context of RLMH is demonstrated. Second, we explore the potential of RLMH and present adaptive gradient-based samplers that balance flexibility of the Markov transition kernel with learnability of the associated RL task. A comprehensive simulation study using the posteriordb benchmark supports the practical effectiveness of RLMH.
主题: 计算 (stat.CO) ; 机器学习 (cs.LG); 机器学习 (stat.ML)
引用方式: arXiv:2507.00671 [stat.CO]
  (或者 arXiv:2507.00671v1 [stat.CO] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.00671
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Chris Oates [查看电子邮件]
[v1] 星期二, 2025 年 7 月 1 日 11:12:34 UTC (416 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
stat.CO
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.LG
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号