计算机科学 > 机器学习
[提交于 2020年10月12日
]
标题: 适应对抗性多臂老虎机中的延迟和数据
标题: Adapting to Delays and Data in Adversarial Multi-Armed Bandits
摘要: 我们考虑在延迟反馈下的对抗性多臂老虎机问题。 我们分析了使用仅在决策时可用的信息(关于损失和延迟)来调整步长的Exp3算法变体,并获得了适应于观察到的(而非最坏情况的)延迟和/或损失序列的遗憾保证。 首先,通过一种令人惊讶的简单证明技术,我们表明,通过适当的步长调整,该算法在期望和高概率下都能达到最优(对数因子以外)的遗憾,其阶数为$\sqrt{\log(K)(TK + D)}$,其中$K$是手臂的数量,$T$是时间范围,$D$是累计延迟。 高概率版本的界限是文献中第一个高概率的延迟自适应界限,它关键地依赖于在估计损失时使用隐式探索。 然后,遵循 Zimmert 和 Seldin [2019],我们扩展了这些结果,使算法能够“跳过”具有大延迟的回合,从而得到阶数为$\sqrt{TK\log(K)} + |R| + \sqrt{D_{\bar{R}}\log(K)}$的遗憾界限,其中$R$是任意一组被跳过的回合,$D_{\bar{R}}$是其他回合的反馈的累计延迟。 最后,我们提出了另一种数据自适应(AdaGrad风格)的算法,其遗憾可以适应观察到的(延迟)损失,而不仅仅是适应累计延迟(该算法需要对最大延迟的先验上界,或者在做出决策时提前知道每个决策的延迟)。 在温和的问题上,所得的界限可能小几个数量级,并且可以证明延迟仅通过最佳手臂的损失影响遗憾。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.