计算机科学 > 机器学习
[提交于 2020年3月6日
]
标题: 告别武器:在预算内带有放弃选项的顺序奖励最大化
标题: A Farewell to Arms: Sequential Reward Maximization on a Budget with a Giving Up Option
摘要: 我们考虑一个顺序决策问题,其中代理一次只能执行一个动作,每个动作都有一个随机的时间跨度,即在前一个动作完成之前不能执行新动作。 完成后,所选动作会带来一个随机奖励。 代理的目标是在有限的时间预算内最大化其累积奖励,并可以选择“放弃”当前动作——从而放弃任何奖励——以选择另一个动作。 我们将这个问题视为一种具有随机资源消耗的随机多臂老虎机问题。 对于这个问题,我们首先确定最优的臂是那个使臂的期望奖励与由于拉动该臂而使代理看到奖励之前的期望等待时间之比最大的臂。 使用这个比值的新颖上界,我们引入了一个基于上界置信度的算法 WAIT-UCB,我们建立了对该算法的对数问题依赖性遗憾边界,与之前的工作相比,其对问题参数的依赖性有所改进。 还展示了在各种问题配置上的模拟结果,将 WAIT-UCB 与最先进的算法进行了比较。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.