数学 > 优化与控制
[提交于 2025年7月21日
]
标题: 基于功率约束的策略梯度方法用于LQR
标题: Power-Constrained Policy Gradient Methods for LQR
摘要: 考虑一个离散时间线性二次调节器(LQR)问题,当系统矩阵未知时使用策略梯度下降法求解。 梯度通过具有平均功率约束的发送器在有限时间范围内通过模拟通信在噪声信道上传输。 这是强化学习和网络控制系统的交叉点的一个简单设置。 我们首先考虑一个通信受限的优化框架,在该框架中,梯度下降用于在噪声梯度传输下优化非凸函数。 我们提供了一个最优功率分配算法,以最小化最终迭代的期望最优性误差的上界,并表明自适应功率分配相比标准梯度下降与均匀功率分布可以带来更好的收敛速度。 然后我们将我们的结果应用于LQR设置。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.