Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2406.02791v1

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2406.02791v1 (cs)
[提交于 2024年6月4日 (此版本) , 最新版本 2024年11月8日 (v2) ]

标题: 语言模型可以从环境反馈中推断经典规划器的动作语义

标题: Language Models can Infer Action Semantics for Classical Planners from Environment Feedback

Authors:Wang Zhu, Ishika Singh, Robin Jia, Jesse Thomason
摘要: 经典规划方法在可能的情况下保证找到一组可以实现给定目标状态的动作,但需要专家来指定控制环境动态的逻辑动作语义。 研究人员已经表明,大型语言模型(LLMs)可以仅基于常识知识和最少的领域信息直接推断出规划步骤,但这样的计划在执行时经常失败。 我们结合经典规划和LLM常识推理的优势来进行领域归纳,根据与环境本身的闭环交互来学习和验证动作的前提和后置条件。 我们提出了PSALM,该方法利用LLM推理来启发式地完成经典规划器在给定部分领域知识的情况下发出的部分计划,以及在执行后根据环境反馈推断出领域的语义规则,以逻辑语言表示。 我们的分析显示,在7个环境中,仅使用一个专家精心设计的示例计划,使用LLM作为启发式规划器和规则预测器,在降低环境执行步骤和环境重置次数的同时,能够同时恢复领域的底层真实动作语义。
摘要: Classical planning approaches guarantee finding a set of actions that can achieve a given goal state when possible, but require an expert to specify logical action semantics that govern the dynamics of the environment. Researchers have shown that Large Language Models (LLMs) can be used to directly infer planning steps based on commonsense knowledge and minimal domain information alone, but such plans often fail on execution. We bring together the strengths of classical planning and LLM commonsense inference to perform domain induction, learning and validating action pre- and post-conditions based on closed-loop interactions with the environment itself. We propose PSALM, which leverages LLM inference to heuristically complete partial plans emitted by a classical planner given partial domain knowledge, as well as to infer the semantic rules of the domain in a logical language based on environment feedback after execution. Our analysis on 7 environments shows that with just one expert-curated example plans, using LLMs as heuristic planners and rule predictors achieves lower environment execution steps and environment resets than random exploration while simultaneously recovering the underlying ground truth action semantics of the domain.
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL); 机器人技术 (cs.RO)
引用方式: arXiv:2406.02791 [cs.AI]
  (或者 arXiv:2406.02791v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2406.02791
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Wang Zhu [查看电子邮件]
[v1] 星期二, 2024 年 6 月 4 日 21:29:56 UTC (321 KB)
[v2] 星期五, 2024 年 11 月 8 日 16:50:24 UTC (2,141 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-06
切换浏览方式为:
cs
cs.CL
cs.RO

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号