计算机科学 > 机器学习
[提交于 2025年7月13日
]
标题: 对学习状态值的动作价值时序差分方法的分析
标题: An Analysis of Action-Value Temporal-Difference Methods That Learn State Values
摘要: 时间差分(TD)学习的显著特征是自举:使用价值预测来生成新的价值预测。 绝大多数用于控制的TD方法通过从单一动作价值函数(例如Q-learning和Sarsa)进行自举来学习策略。 对从两个非对称价值函数进行自举的方法关注较少:即在学习动作价值的过程中,将状态价值作为中间步骤的方法。 此类现有算法可分为QV-learning或AV-learning。 尽管这些算法在以前的工作中已经进行了一定程度的研究,但尚不清楚在何时以及是否学习两个价值函数而不是一个是有优势的——以及这类方法在理论上是否普遍成立。 在本文中,我们从收敛性和样本效率的角度分析了这些算法族。 我们发现,在预测设置中,这两个家族都比期望Sarsa更高效,但在控制设置中,只有AV-learning方法相对于Q-learning提供了主要的优势。 最后,我们引入了一种新的AV-learning算法,称为正则化对抗Q-learning(RDQ),它在MinAtar基准测试中显著优于对抗DQN。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.