计算机科学 > 计算机科学与博弈论
[提交于 2022年3月26日
(v1)
,最后修订 2022年4月13日 (此版本, v2)]
标题: 鲁棒无遗憾的最小最大斯塔克尔伯格博弈学习
标题: Robust No-Regret Learning in Min-Max Stackelberg Games
摘要: 在两人零和博弈的最小最大(即零和)博弈中,无遗憾学习算法的行为已经被很好地理解。 在本文中,我们研究了在策略集相关的最小最大博弈中无遗憾学习的行为,其中第一个玩家的策略限制了第二个玩家的行为。 这类博弈最好被理解为顺序博弈,即最小最大Stackelberg博弈。 我们考虑两种情况,一种是只有第一个玩家使用无遗憾算法选择其行动,而第二个玩家最佳响应,另一种是两个玩家都使用无遗憾算法。 对于前一种情况,我们证明无遗憾动态收敛到一个Stackelberg均衡。 对于后一种情况,我们引入了一种新的遗憾类型,我们称之为拉格朗日遗憾,并证明如果两个玩家都最小化他们的拉格朗日遗憾,那么博弈将收敛到一个Stackelberg均衡。 然后我们观察到,在这两种情况下,在线镜像下降(OMD)动态分别对应于已知的嵌套(即顺序)梯度下降-上升(GDA)算法和一种新的同时GDA类似算法,从而建立了这些算法收敛到Stackelberg均衡。 最后,我们通过研究在线最小最大Stackelberg博弈来分析OMD动态对扰动的鲁棒性。 我们证明OMD动态对于具有独立策略集的大量在线最小最大博弈是鲁棒的。 在依赖情况下,我们通过在在线Fisher市场中模拟它们来实验性地展示OMD动态的鲁棒性,这是具有依赖策略集的最小最大Stackelberg博弈的一个典型例子。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.