数学 > 优化与控制
[提交于 2025年5月28日
]
标题: 非凸熵平均场优化的Best Response流方法
标题: Non-convex entropic mean-field optimization via Best Response flow
摘要: 我们研究了在概率测度空间上最小化非凸泛函的问题,并且这些泛函通过相对于固定参考测度的相对熵(KL散度)正则化,同时研究了相应的熵正则化的非凸非凹极小极大问题。 我们利用最佳响应流(在文献中也称为虚构博弈流),并探讨了其收敛性如何受到所考虑泛函的非凸程度、正则化参数以及参考测度尾部行为之间关系的影响。 具体来说,我们展示了如何根据非凸泛函选择正则化器,使得最佳响应算子成为关于$L^1$-Wasserstein 距离的压缩映射,这确保了其唯一不动点的存在,该不动点随后被证明是我们的优化问题的唯一全局极小值。 这扩展了最近的结果,在这些结果中,最佳响应流被应用于解决由相对于任意参考测度的相对熵正则化的凸优化问题,并且正则化参数具有任意值。 我们的结果精确地解释了如何在选择特定正则化器的情况下放松凸性假设。 此外,我们展示了这些结果如何在强化学习的背景下应用于马尔可夫决策过程和具有平均场 softmax 参数化策略的马尔可夫博弈的策略优化。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.