计算机科学 > 人工智能
[提交于 2024年6月11日
]
标题: 带有大型语言模型提示的目标实现世界模型
标题: World Models with Hints of Large Language Models for Goal Achieving
摘要: 强化学习在面对长时域任务和稀疏目标时存在困难,这是由于手动奖励规范的难度。 虽然现有方法通过添加内在奖励来解决这个问题,但在具有大状态和动作空间的长时域决策任务中,它们可能无法提供有意义的指导,缺乏有目的的探索。 受人类认知的启发,我们提出了一种新的多模态基于模型的强化学习方法,名为使用大型语言模型的梦想(DLLM)。 DLLM将从语言模型中提出的提示性子目标整合到模型滚动中,以鼓励在挑战性任务中发现和达到目标。 通过在模型滚动过程中将较高的内在奖励分配给与语言模型概述的提示相一致的样本,DLLM引导智能体朝着有意义且高效的探索方向发展。 大量实验表明,在HomeGrid、Crafter和Minecraft等各种具有挑战性和稀疏奖励的环境中,DLLM分别优于最近的方法27.7%、21.1%和9.9%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.