计算机科学 > 人工智能
[提交于 2025年7月2日
]
标题: 工具代理:强化学习中分层决策的研究
标题: Agent-as-Tool: A Study on the Hierarchical Decision Making with Reinforcement Learning
摘要: 大型语言模型(LLMs)近年来已成为人工智能领域最重要的技术进步之一。 它们理解、生成和推理自然语言的能力改变了我们与AI系统互动的方式。 随着基于LLM的智能体和基于强化学习的推理模型的发展,将强化学习应用于智能体框架的研究已成为新的研究重点。 然而,所有先前的研究都面临同时决定工具调用过程和推理过程的挑战,推理链仅依赖于工具提供的未经处理的原始结果,其中包含与任务无关的冗余信息和符号,这给模型的推理能力带来了沉重负担。 因此,在我们的研究中,我们提出了一种分层框架Agent-as-tool,将工具调用过程和推理过程分离,使模型能够专注于口头推理过程,而工具调用过程由另一个智能体处理。 我们的工作仅在180个样本上进行了轻微的强化微调,就取得了可比的结果,并在Bamboogle上取得了优异的表现,精确匹配率达到63.2%,覆盖精确匹配率达到75.2%,在精确匹配上超过Search-R1 4.8%,在覆盖精确匹配上超过3.2%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.