统计学 > 机器学习
[提交于 2024年12月12日
(v1)
,最后修订 2025年2月16日 (此版本, v2)]
标题: 精确渐近性和方差感知UCB的精化遗憾
标题: Precise Asymptotics and Refined Regret of Variance-Aware UCB
摘要: 本文研究了多臂老虎机(Multi-Armed Bandit, MAB)问题中上置信界-方差(Upper Confidence Bound-Variance, UCB-V)算法的行为,这是经典上置信界(UCB)算法的一个变种,其决策过程纳入了方差估计。更具体地说,我们给出了UCB-V的拉臂速率的渐近刻画,推广了Kalvit和Zeevi(2021)以及Khamaru和Zhang(2024)最近关于经典UCB的结果。 与经典UCB形成有趣的对比的是,我们的分析揭示了UCB-V的行为可能会表现出不稳定性,这意味着拉臂速率可能并不总是渐近确定的。 除了渐近刻画之外,我们还在高概率情形下提供了拉臂速率的非渐近界,为遗憾分析提供了见解。 作为这一高概率结果的应用,我们证明了UCB-V可以实现一个更为精细的遗憾界,即使对于更复杂、更先进的考虑方差意识的在线决策算法而言,这一遗憾界此前也是未知的。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.