电气工程与系统科学 > 系统与控制
[提交于 2021年8月18日
]
标题: 具有未知动态的网络耦合子系统学习控制的可扩展遗憾
标题: Scalable regret for learning to control network-coupled subsystems with unknown dynamics
摘要: 我们考虑控制一个未知的线性二次高斯(LQG)系统的问题,该系统由多个通过网络连接的子系统组成。我们的目标是相对于一个了解系统模型的先知策略,最小化并量化我们的策略的遗憾(即性能损失)。从全局视角直接使用现有的LQG学习算法来处理整个系统会导致遗憾随着子系统数量的增加而超线性增长。相反,我们提出了一种基于汤普森采样的新学习算法,该算法利用了底层网络的结构。我们证明了所提出的算法的期望遗憾被$\tilde{\mathcal{O}} \big( n \sqrt{T} \big)$所限制,其中$n$是子系统的数量,$T$是时间范围,$\tilde{\mathcal{O}}(\cdot)$符号隐藏了与$n$和$T$相关的对数项。因此,遗憾与子系统的数量成线性关系。我们进行了数值实验以说明所提出算法的显著特征。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.