Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2406.04151

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2406.04151 (cs)
[提交于 2024年6月6日 ]

标题: AgentGym:在多种环境中进化基于大语言模型的智能体

标题: AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

Authors:Zhiheng Xi, Yiwen Ding, Wenxiang Chen, Boyang Hong, Honglin Guo, Junzhe Wang, Dingwen Yang, Chenyang Liao, Xin Guo, Wei He, Songyang Gao, Lu Chen, Rui Zheng, Yicheng Zou, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
摘要: 构建能够处理多样化任务并在不同环境中自我进化的通用代理是人工智能界的一个长期目标。 大型语言模型(LLMs)因其泛化能力被认为是构建此类代理的有前途的基础。 当前的方法要么让基于LLM的代理逐步模仿专家提供的轨迹,需要人工监督,这难以扩展并限制了环境探索;要么让代理在隔离环境中探索和学习,导致专业代理,泛化能力有限。 在本文中,我们迈出了构建具有自我进化能力的通用LLM代理的第一步。 我们确定了三个关键要素:1)用于代理探索和学习的多样化环境,2)一个轨迹集,使代理具备基本能力和先验知识,3)一种有效且可扩展的进化方法。 我们提出了AgentGym,一个新框架,具有多种环境和任务,用于广泛、实时、统一格式和并发的代理探索。 AgentGym还包含一个扩展指令的数据库、一个基准套件以及跨环境的高质量轨迹。 接下来,我们提出了一种新方法AgentEvol,以研究代理在任务和环境上超越之前看到的数据的自我进化潜力。 实验结果表明,进化后的代理可以达到与最先进模型相当的结果。 我们发布了AgentGym套件,包括平台、数据集、基准、检查点和算法实现。 AgentGym套件可在https://github.com/WooooDyy/AgentGym获取。
摘要: Building generalist agents that can handle diverse tasks and evolve themselves across different environments is a long-term goal in the AI community. Large language models (LLMs) are considered a promising foundation to build such agents due to their generalized capabilities. Current approaches either have LLM-based agents imitate expert-provided trajectories step-by-step, requiring human supervision, which is hard to scale and limits environmental exploration; or they let agents explore and learn in isolated environments, resulting in specialist agents with limited generalization. In this paper, we take the first step towards building generally-capable LLM-based agents with self-evolution ability. We identify a trinity of ingredients: 1) diverse environments for agent exploration and learning, 2) a trajectory set to equip agents with basic capabilities and prior knowledge, and 3) an effective and scalable evolution method. We propose AgentGym, a new framework featuring a variety of environments and tasks for broad, real-time, uni-format, and concurrent agent exploration. AgentGym also includes a database with expanded instructions, a benchmark suite, and high-quality trajectories across environments. Next, we propose a novel method, AgentEvol, to investigate the potential of agent self-evolution beyond previously seen data across tasks and environments. Experimental results show that the evolved agents can achieve results comparable to SOTA models. We release the AgentGym suite, including the platform, dataset, benchmark, checkpoints, and algorithm implementations. The AgentGym suite is available on https://github.com/WooooDyy/AgentGym.
评论: 项目网站:https://agentgym.github.io
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL)
引用方式: arXiv:2406.04151 [cs.AI]
  (或者 arXiv:2406.04151v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2406.04151
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Zhiheng Xi [查看电子邮件]
[v1] 星期四, 2024 年 6 月 6 日 15:15:41 UTC (2,776 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-06
切换浏览方式为:
cs
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号