Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2108.08765

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2108.08765 (cs)
[提交于 2021年8月19日 ]

标题: 具有线性函数逼近的在线和离线设置下可证明高效生成对抗模仿学习

标题: Provably Efficient Generative Adversarial Imitation Learning for Online and Offline Setting with Linear Function Approximation

Authors:Zhihan Liu, Yufeng Zhang, Zuyue Fu, Zhuoran Yang, Zhaoran Wang
摘要: 在生成对抗模仿学习(GAIL)中,智能体的目标是从专家演示中学习一个策略,使得其在某些预定义奖励集上的表现无法与专家策略区分开来。 本文研究了在线和离线设置下的 GAIL,并采用线性函数逼近,其中转移函数和奖励函数在线性特征映射下表示。 除了专家演示外,在线设置下智能体可以与环境交互,而在离线设置下,智能体只能访问由先前收集的额外数据集。 对于在线 GAIL,我们提出了一个乐观生成对抗策略优化算法(OGAP),并证明了 OGAP 实现了 $\widetilde{\mathcal{O}}(H^2 d^{3/2}K^{1/2}+KH^{3/2}dN_1^{-1/2})$悔值。 这里 $N_1$表示专家演示的轨迹数,$d$是特征维度,$K$是轮次数。 对于离线 GAIL,我们提出了一个悲观生成对抗策略优化算法(PGAP)。 对于任意的额外数据集,我们得到了 PGAP 的最优性差距,实现了额外数据集利用中的 minimax 下界。 假设额外数据集具有足够的覆盖率,我们表明 PGAP 实现了 $\widetilde{\mathcal{O}}(H^{2}dK^{-1/2} +H^2d^{3/2}N_2^{-1/2}+H^{3/2}dN_1^{-1/2} \ )$最优性差距。 这里$N_2$表示具有足够覆盖率的额外数据集的轨迹数。
摘要: In generative adversarial imitation learning (GAIL), the agent aims to learn a policy from an expert demonstration so that its performance cannot be discriminated from the expert policy on a certain predefined reward set. In this paper, we study GAIL in both online and offline settings with linear function approximation, where both the transition and reward function are linear in the feature maps. Besides the expert demonstration, in the online setting the agent can interact with the environment, while in the offline setting the agent only accesses an additional dataset collected by a prior. For online GAIL, we propose an optimistic generative adversarial policy optimization algorithm (OGAP) and prove that OGAP achieves $\widetilde{\mathcal{O}}(H^2 d^{3/2}K^{1/2}+KH^{3/2}dN_1^{-1/2})$ regret. Here $N_1$ represents the number of trajectories of the expert demonstration, $d$ is the feature dimension, and $K$ is the number of episodes. For offline GAIL, we propose a pessimistic generative adversarial policy optimization algorithm (PGAP). For an arbitrary additional dataset, we obtain the optimality gap of PGAP, achieving the minimax lower bound in the utilization of the additional dataset. Assuming sufficient coverage on the additional dataset, we show that PGAP achieves $\widetilde{\mathcal{O}}(H^{2}dK^{-1/2} +H^2d^{3/2}N_2^{-1/2}+H^{3/2}dN_1^{-1/2} \ )$ optimality gap. Here $N_2$ represents the number of trajectories of the additional dataset with sufficient coverage.
评论: 54页,已投稿
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI); 优化与控制 (math.OC); 机器学习 (stat.ML)
引用方式: arXiv:2108.08765 [cs.LG]
  (或者 arXiv:2108.08765v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2108.08765
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Yufeng Zhang [查看电子邮件]
[v1] 星期四, 2021 年 8 月 19 日 16:16:00 UTC (80 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2021-08
切换浏览方式为:
cs
cs.LG
math
math.OC
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号