Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2203.14126

帮助 | 高级搜索

计算机科学 > 计算机科学与博弈论

arXiv:2203.14126 (cs)
[提交于 2022年3月26日 (v1) ,最后修订 2022年4月13日 (此版本, v2)]

标题: 鲁棒无遗憾的最小最大斯塔克尔伯格博弈学习

标题: Robust No-Regret Learning in Min-Max Stackelberg Games

Authors:Denizalp Goktas, Jiayi Zhao, Amy Greenwald
摘要: 在两人零和博弈的最小最大(即零和)博弈中,无遗憾学习算法的行为已经被很好地理解。 在本文中,我们研究了在策略集相关的最小最大博弈中无遗憾学习的行为,其中第一个玩家的策略限制了第二个玩家的行为。 这类博弈最好被理解为顺序博弈,即最小最大Stackelberg博弈。 我们考虑两种情况,一种是只有第一个玩家使用无遗憾算法选择其行动,而第二个玩家最佳响应,另一种是两个玩家都使用无遗憾算法。 对于前一种情况,我们证明无遗憾动态收敛到一个Stackelberg均衡。 对于后一种情况,我们引入了一种新的遗憾类型,我们称之为拉格朗日遗憾,并证明如果两个玩家都最小化他们的拉格朗日遗憾,那么博弈将收敛到一个Stackelberg均衡。 然后我们观察到,在这两种情况下,在线镜像下降(OMD)动态分别对应于已知的嵌套(即顺序)梯度下降-上升(GDA)算法和一种新的同时GDA类似算法,从而建立了这些算法收敛到Stackelberg均衡。 最后,我们通过研究在线最小最大Stackelberg博弈来分析OMD动态对扰动的鲁棒性。 我们证明OMD动态对于具有独立策略集的大量在线最小最大博弈是鲁棒的。 在依赖情况下,我们通过在在线Fisher市场中模拟它们来实验性地展示OMD动态的鲁棒性,这是具有依赖策略集的最小最大Stackelberg博弈的一个典型例子。
摘要: The behavior of no-regret learning algorithms is well understood in two-player min-max (i.e, zero-sum) games. In this paper, we investigate the behavior of no-regret learning in min-max games with dependent strategy sets, where the strategy of the first player constrains the behavior of the second. Such games are best understood as sequential, i.e., min-max Stackelberg, games. We consider two settings, one in which only the first player chooses their actions using a no-regret algorithm while the second player best responds, and one in which both players use no-regret algorithms. For the former case, we show that no-regret dynamics converge to a Stackelberg equilibrium. For the latter case, we introduce a new type of regret, which we call Lagrangian regret, and show that if both players minimize their Lagrangian regrets, then play converges to a Stackelberg equilibrium. We then observe that online mirror descent (OMD) dynamics in these two settings correspond respectively to a known nested (i.e., sequential) gradient descent-ascent (GDA) algorithm and a new simultaneous GDA-like algorithm, thereby establishing convergence of these algorithms to Stackelberg equilibrium. Finally, we analyze the robustness of OMD dynamics to perturbations by investigating online min-max Stackelberg games. We prove that OMD dynamics are robust for a large class of online min-max games with independent strategy sets. In the dependent case, we demonstrate the robustness of OMD dynamics experimentally by simulating them in online Fisher markets, a canonical example of a min-max Stackelberg game with dependent strategy sets.
评论: 15页,1图,2表,6个算法;即将发表于AAMAS'22。 arXiv管理员注释:与arXiv:2110.05192存在文本重叠
主题: 计算机科学与博弈论 (cs.GT) ; 机器学习 (cs.LG); 理论经济学 (econ.TH)
引用方式: arXiv:2203.14126 [cs.GT]
  (或者 arXiv:2203.14126v2 [cs.GT] 对于此版本)
  https://doi.org/10.48550/arXiv.2203.14126
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Denizalp Goktas [查看电子邮件]
[v1] 星期六, 2022 年 3 月 26 日 18:12:40 UTC (2,278 KB)
[v2] 星期三, 2022 年 4 月 13 日 20:44:18 UTC (2,279 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
econ.TH
< 上一篇   |   下一篇 >
新的 | 最近的 | 2022-03
切换浏览方式为:
cs
cs.GT
cs.LG
econ

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号