计算机科学 > 多智能体系统
[提交于 2024年12月30日
]
标题: 增量多智能体玻尔兹曼 Q 学习的确定性模型:瞬时合作、亚稳态和振荡
标题: Deterministic Model of Incremental Multi-Agent Boltzmann Q-Learning: Transient Cooperation, Metastability, and Oscillations
摘要: 多智能体强化学习涉及在共享环境中共同学习的智能体,导致出现对初始条件和参数变化敏感的涌现动力学。 一种动力系统方法,用于研究多组分系统随时间演化的特性,通过构建随机算法的确定性近似模型,揭示了一些潜在的动力学。 在本工作中,我们证明即使在独立Q学习与玻尔兹曼探索策略的最简单情况下,实际算法与之前近似之间也存在显著差异。 我们详细说明了为什么这些模型实际上近似的是有趣的变体,而不是原始的增量算法。 为了解释这些差异,我们引入了一个新的离散时间近似模型,该模型明确考虑了学习过程中智能体的更新频率,并表明其动力学与先前模型的简化动力学有根本的不同。 我们通过将其应用于社会困境中的自发合作问题,特别是以囚徒困境作为最简单的案例研究,来展示我们方法的实用性。 我们确定了从外部视角来看学习行为表现为长期稳定合作的条件。 然而,我们的模型显示,这种行为仅仅是亚稳态的瞬态阶段,并非真正的均衡状态,因此容易被利用。 我们进一步举例说明了特定的参数设置如何显著加剧独立学习中的动态目标问题。 通过对我们模型的系统分析,我们展示了增加折扣因子会引发振荡,从而阻止收敛到联合策略。 这些振荡来源于超临界尼马克-萨克尔分岔,它将唯一的稳定固定点转化为被稳定极限环包围的不稳定焦点。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.