统计学 > 机器学习
[提交于 2022年5月3日
]
标题: 范数无关的线性Bandits
标题: Norm-Agnostic Linear Bandits
摘要: 线性上下文-bandit 模型有着广泛的应用,包括推荐系统等,但它有一个很强的假设:算法必须知道未知参数 $\theta^*$ 的范数上界 $S$,而该参数决定了奖励生成。这一假设迫使实践者猜测与置信边界相关的值 $S$,除了希望 $\|\theta^*\|\le S$ 成立以保证后悔值较低外别无选择。本文首次提出不需要这种知识的新算法。具体来说,我们提出了两种算法,并分析了它们的后悔上界:一种适用于动态臂集合设置,另一种适用于固定臂集合设置。对于前者,我们的后悔上界表明,不知道 $S$ 并不会影响后悔上界的主项,只会增加低阶项。对于后者,我们现在不知道 $S$ 并不会在后悔上界中付出代价。 我们的数值实验表明,假设知道$S$的标准算法在$\|\theta^*\|\le S$不成立时可能会 catastrophic 失败,而我们的算法则能保持较低的遗憾。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.