计算机科学 > 机器学习
[提交于 2024年12月28日
]
标题: 针对平均场控制博弈的高效可扩展深度强化学习
标题: Efficient and Scalable Deep Reinforcement Learning for Mean Field Control Games
摘要: 平均场控制博弈(MFCGs)提供了一个强大的理论框架,用于分析无限多相互作用代理的系统,融合了平均场博弈(MFGs)和平均场控制(MFC)的元素。然而,求解表征MFCG平衡状态的耦合Hamilton-Jacobi-Bellman方程和Fokker-Planck方程仍然是一个重要的计算挑战,特别是在高维或复杂环境中。 本文提出了一种可扩展的深度强化学习(RL)方法来近似MFCGs的平衡解。在此前工作的基础上,我们将无限代理随机控制问题重新表述为马尔可夫决策过程,在此过程中每个代表性代理与演化的均值场分布交互。我们以先前论文中的演员-评论家算法(Angiuli等人,2024)为基础,并提出了几个版本的更具可扩展性和效率更高的算法,利用了包括并行样本收集(批处理)、小批量处理、目标网络、近端策略优化(PPO)、广义优势估计(GAE)和熵正则化等技术。 通过利用这些技术,我们有效地提高了基线算法的效率、可扩展性和训练稳定性。我们在一个具有解析解的线性二次基准问题上评估了我们的方法。结果表明,我们提出的某些方法实现了更快的收敛速度,并且接近理论最优解,相比基线算法在样本效率方面高出一个数量级。 我们的工作为适应深度RL解决更复杂的MFCGs奠定了基础,例如大规模自主交通系统、多企业经济竞争以及银行间借贷等问题。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.