Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > math > arXiv:2505.22760

帮助 | 高级搜索

数学 > 优化与控制

arXiv:2505.22760 (math)
[提交于 2025年5月28日 ]

标题: 非凸熵平均场优化的Best Response流方法

标题: Non-convex entropic mean-field optimization via Best Response flow

Authors:Razvan-Andrei Lascu, Mateusz B. Majka
摘要: 我们研究了在概率测度空间上最小化非凸泛函的问题,并且这些泛函通过相对于固定参考测度的相对熵(KL散度)正则化,同时研究了相应的熵正则化的非凸非凹极小极大问题。 我们利用最佳响应流(在文献中也称为虚构博弈流),并探讨了其收敛性如何受到所考虑泛函的非凸程度、正则化参数以及参考测度尾部行为之间关系的影响。 具体来说,我们展示了如何根据非凸泛函选择正则化器,使得最佳响应算子成为关于$L^1$-Wasserstein 距离的压缩映射,这确保了其唯一不动点的存在,该不动点随后被证明是我们的优化问题的唯一全局极小值。 这扩展了最近的结果,在这些结果中,最佳响应流被应用于解决由相对于任意参考测度的相对熵正则化的凸优化问题,并且正则化参数具有任意值。 我们的结果精确地解释了如何在选择特定正则化器的情况下放松凸性假设。 此外,我们展示了这些结果如何在强化学习的背景下应用于马尔可夫决策过程和具有平均场 softmax 参数化策略的马尔可夫博弈的策略优化。
摘要: We study the problem of minimizing non-convex functionals on the space of probability measures, regularized by the relative entropy (KL divergence) with respect to a fixed reference measure, as well as the corresponding problem of solving entropy-regularized non-convex-non-concave min-max problems. We utilize the Best Response flow (also known in the literature as the fictitious play flow) and study how its convergence is influenced by the relation between the degree of non-convexity of the functional under consideration, the regularization parameter and the tail behaviour of the reference measure. In particular, we demonstrate how to choose the regularizer, given the non-convex functional, so that the Best Response operator becomes a contraction with respect to the $L^1$-Wasserstein distance, which then ensures the existence of its unique fixed point, which is then shown to be the unique global minimizer for our optimization problem. This extends recent results where the Best Response flow was applied to solve convex optimization problems regularized by the relative entropy with respect to arbitrary reference measures, and with arbitrary values of the regularization parameter. Our results explain precisely how the assumption of convexity can be relaxed, at the expense of making a specific choice of the regularizer. Additionally, we demonstrate how these results can be applied in reinforcement learning in the context of policy optimization for Markov Decision Processes and Markov games with softmax parametrized policies in the mean-field regime.
评论: 40页
主题: 优化与控制 (math.OC) ; 机器学习 (cs.LG); 概率 (math.PR)
引用方式: arXiv:2505.22760 [math.OC]
  (或者 arXiv:2505.22760v1 [math.OC] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.22760
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Razvan-Andrei Lascu [查看电子邮件]
[v1] 星期三, 2025 年 5 月 28 日 18:22:08 UTC (58 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
math.OC
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs
cs.LG
math
math.PR

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号