Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.11691

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2510.11691 (cs)
[提交于 2025年10月13日 ]

标题: 乐观Hedge在两人零和博弈中的紧致遗憾上界和下界

标题: Tight Regret Upper and Lower Bounds for Optimistic Hedge in Two-Player Zero-Sum Games

Authors:Taira Tsuchiya
摘要: 在两人零和博弈中,基于乐观Hedge的学习动态在强解耦学习动态中实现了已知的最佳后悔上界之一。 通过适当选择学习率,社会后悔和个人后悔可以按照两名玩家的动作数量$m$和$n$被限制为$O(\log(mn))$。 本研究探讨了乐观Hedge的后悔中对$m$和$n$的依赖性的最优性。 为此,我们首先改进现有的后悔分析,并表明在对手动作数量已知的强解耦设置中,社会后悔和个人后悔的界限都可以改进为$O(\sqrt{\log m \log n})$。 在此分析中,我们将后悔上界表示为关于学习率和某些负项系数的优化问题,从而实现对主要常数的精细分析。 然后,我们通过提供与算法相关的个人后悔下界,证明现有的社会后悔上界以及这些新的社会和个体后悔上界无法进一步改进乐观Hedge。 重要的是,这些社会后悔上界和下界在主要项的常数因子上完全匹配。 最后,基于这些结果,我们改进了基于乐观Hedge的学习动态的最后迭代收敛速度和动态后悔,并用与算法相关的动态后悔下界补充这些界限,这些下界与改进的界限相匹配。
摘要: In two-player zero-sum games, the learning dynamic based on optimistic Hedge achieves one of the best-known regret upper bounds among strongly-uncoupled learning dynamics. With an appropriately chosen learning rate, the social and individual regrets can be bounded by $O(\log(mn))$ in terms of the numbers of actions $m$ and $n$ of the two players. This study investigates the optimality of the dependence on $m$ and $n$ in the regret of optimistic Hedge. To this end, we begin by refining existing regret analysis and show that, in the strongly-uncoupled setting where the opponent's number of actions is known, both the social and individual regret bounds can be improved to $O(\sqrt{\log m \log n})$. In this analysis, we express the regret upper bound as an optimization problem with respect to the learning rates and the coefficients of certain negative terms, enabling refined analysis of the leading constants. We then show that the existing social regret bound as well as these new social and individual regret upper bounds cannot be further improved for optimistic Hedge by providing algorithm-dependent individual regret lower bounds. Importantly, these social regret upper and lower bounds match exactly including the constant factor in the leading term. Finally, building on these results, we improve the last-iterate convergence rate and the dynamic regret of a learning dynamic based on optimistic Hedge, and complement these bounds with algorithm-dependent dynamic regret lower bounds that match the improved bounds.
评论: 29页,2图
主题: 机器学习 (cs.LG) ; 计算机科学与博弈论 (cs.GT); 机器学习 (stat.ML)
引用方式: arXiv:2510.11691 [cs.LG]
  (或者 arXiv:2510.11691v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.11691
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Taira Tsuchiya [查看电子邮件]
[v1] 星期一, 2025 年 10 月 13 日 17:52:01 UTC (91 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
cs.GT
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号