Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2108.00506

帮助 | 高级搜索

电气工程与系统科学 > 信号处理

arXiv:2108.00506 (eess)
[提交于 2021年8月1日 (v1) ,最后修订 2021年11月5日 (此版本, v3)]

标题: 无线网络的可扩展多智能体强化学习算法

标题: Scalable Multi-agent Reinforcement Learning Algorithm for Wireless Networks

Authors:Fenghe Hu, Yansha Deng, A. Hamid Aghvami
摘要: 可扩展性是合作智能算法在大规模网络中应用的关键障碍。强化学习(RL)作为一种无模型且高效的智能算法,在通信问题中被证明是有用的,并已在通信网络中得到验证。然而,当涉及到具有有限中心化的大型网络时,不可能使用一个集中实体来对整个网络进行联合实时决策。这引入了可扩展性的挑战,而多智能体强化学习展示了应对这些挑战的机会,并将智能算法扩展到合作的大规模网络。 在本文中,我们介绍了联邦均场多智能体强化学习结构,以捕捉大规模多智能体通信场景中的问题,其中代理共享参数以形成一致性。我们展示了架构的理论基础,并通过信息多智能体模型展示了联邦频率的影响。然后,我们在需要相邻接入点之间握手以实现协作增益的协调多点环境中测试了架构的性能。我们的结果显示,该学习结构可以有效地解决大规模网络中的协作问题,并具有良好的可扩展性。我们还展示了联邦算法的有效性,并强调了在每个接入点维持个性的重要性。
摘要: Scalability is the key roadstone towards the application of cooperative intelligent algorithms in large-scale networks. Reinforcement learning (RL) is known as model-free and high efficient intelligent algorithm for communication problems and proved useful in the communication network. However, when coming to large-scale networks with limited centralization, it is not possible to employ a centralized entity to perform joint real-time decision making for entire network. This introduces the scalability challenges, while multi-agent reinforcement shows the opportunity to cope this challenges and extend the intelligent algorithm to cooperative large-scale network. In this paper, we introduce the federated mean-field multi-agent reinforcement learning structure to capture the problem in large scale multi-agent communication scenarios, where agents share parameters to form consistency. We present the theoretical basis of our architecture and show the influence of federated frequency with an informational multi-agent model. We then exam the performance of our architecture with a coordinated multi-point environment which requires handshakes between neighbour access-points to realise the cooperation gain. Our result shows that the learning structure can effectively solve the cooperation problem in a large scale network with decent scalability. We also show the effectiveness of federated algorithms and highlight the importance of maintaining personality in each access-point.
评论: 18页,9幅图
主题: 信号处理 (eess.SP)
引用方式: arXiv:2108.00506 [eess.SP]
  (或者 arXiv:2108.00506v3 [eess.SP] 对于此版本)
  https://doi.org/10.48550/arXiv.2108.00506
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Fenghe Hu [查看电子邮件]
[v1] 星期日, 2021 年 8 月 1 日 17:34:28 UTC (351 KB)
[v2] 星期四, 2021 年 9 月 16 日 15:45:23 UTC (360 KB)
[v3] 星期五, 2021 年 11 月 5 日 00:32:27 UTC (585 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
查看许可
当前浏览上下文:
eess.SP
< 上一篇   |   下一篇 >
新的 | 最近的 | 2021-08
切换浏览方式为:
eess

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号