计算机科学 > 人工智能
[提交于 2024年6月10日
]
标题: 哈斯基:一种统一的、开源的语言代理,用于多步骤推理
标题: Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning
摘要: 语言代理通过使用工具精确执行每一步来完成复杂任务。 然而,大多数现有的代理基于专有模型或设计用于特定任务,例如数学或多跳问答。 我们介绍了Husky,一个全面的开源语言代理,它学习在统一的动作空间中进行推理,以解决涉及数值、表格和基于知识推理的多样化复杂任务。 Husky在两个阶段之间迭代:1)生成为解决给定任务而采取的下一步动作,2)使用专家模型执行该动作并更新当前解决方案状态。 我们确定了一个全面的动作本体论,用于解决复杂任务,并整理了高质量的数据来训练执行这些动作的专家模型。 我们的实验表明,Husky在14个评估数据集上优于先前的语言代理。 此外,我们引入了HuskyQA,一个新的评估集,它对语言代理进行混合工具推理的压力测试,重点在于检索缺失的知识和执行数值推理。 尽管使用了7B模型,Husky在这些任务上的表现与甚至超过了GPT-4等前沿语言模型,展示了我们全面方法在解决复杂推理问题方面的有效性。 我们的代码和模型可在https://github.com/agent-husky/Husky-v1获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.