计算机科学 > 机器学习
[提交于 2020年1月27日
]
标题: 去中心化协作多智能体动态系统中的遗憾界
标题: Regret Bounds for Decentralized Learning in Cooperative Multi-Agent Dynamical Systems
摘要: 后悔分析在多智能体强化学习(MARL)中具有挑战性,主要是由于动态环境以及智能体之间的去中心化信息。 我们在多智能体线性二次(LQ)动力系统中的去中心化学习背景下尝试解决这一挑战。 我们从一个由两个智能体和两个动态解耦的随机线性系统组成的简单设置开始,每个系统由一个智能体控制。 这些系统通过一个二次成本函数耦合。 当两个系统的动态未知且智能体之间没有通信时,我们证明没有任何学习策略可以生成关于$T$的次线性后悔,其中$T$是时间范围。 当只有一个系统的动态未知且存在从控制未知系统的智能体到另一个智能体的一向通信时,我们提出了一种基于构建辅助单智能体 LQ 问题的 MARL 算法。 所提出的 MARL 算法中的辅助单智能体问题作为两个学习智能体之间的隐式协调机制。 这使得智能体能够达到与辅助单智能体问题的后悔值相差不超过$O(\sqrt{T})$的后悔值。 因此,利用现有的单智能体 LQ 后悔结果,我们的算法提供了一个$\tilde{O}(\sqrt{T})$的后悔界。 (此处$\tilde{O}(\cdot)$隐藏了常数和对数因子)。 我们的数值实验表明,该界限在实践中得到了匹配。 从双智能体问题出发,我们将结果扩展到具有特定通信模式的多智能体 LQ 系统。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.