计算机科学 > 机器学习
[提交于 2021年8月19日
]
标题: 具有线性函数逼近的在线和离线设置下可证明高效生成对抗模仿学习
标题: Provably Efficient Generative Adversarial Imitation Learning for Online and Offline Setting with Linear Function Approximation
摘要: 在生成对抗模仿学习(GAIL)中,智能体的目标是从专家演示中学习一个策略,使得其在某些预定义奖励集上的表现无法与专家策略区分开来。 本文研究了在线和离线设置下的 GAIL,并采用线性函数逼近,其中转移函数和奖励函数在线性特征映射下表示。 除了专家演示外,在线设置下智能体可以与环境交互,而在离线设置下,智能体只能访问由先前收集的额外数据集。 对于在线 GAIL,我们提出了一个乐观生成对抗策略优化算法(OGAP),并证明了 OGAP 实现了 $\widetilde{\mathcal{O}}(H^2 d^{3/2}K^{1/2}+KH^{3/2}dN_1^{-1/2})$悔值。 这里 $N_1$表示专家演示的轨迹数,$d$是特征维度,$K$是轮次数。 对于离线 GAIL,我们提出了一个悲观生成对抗策略优化算法(PGAP)。 对于任意的额外数据集,我们得到了 PGAP 的最优性差距,实现了额外数据集利用中的 minimax 下界。 假设额外数据集具有足够的覆盖率,我们表明 PGAP 实现了 $\widetilde{\mathcal{O}}(H^{2}dK^{-1/2} +H^2d^{3/2}N_2^{-1/2}+H^{3/2}dN_1^{-1/2} \ )$最优性差距。 这里$N_2$表示具有足够覆盖率的额外数据集的轨迹数。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.