计算机科学 > 计算与语言
[提交于 2025年1月2日
]
标题: ToolComp:多工具推理与过程监督基准
标题: ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark
摘要: 尽管人工智能取得了最近的进展,但开发能够执行涉及多个工具的复杂多步骤推理任务的系统仍然是一个重大挑战。 当前的基准测试在捕捉工具使用推理的真实世界复杂性方面存在不足,其中验证最终答案以及中间步骤的正确性对于评估、开发和识别推理过程中的失败至关重要。 为了弥补这一差距,我们引入了ToolComp,这是一个旨在评估多步骤工具使用推理的全面基准。 ToolComp是通过模型和人类标注者的合作开发的,包括经过人工编辑/验证的提示、最终答案和过程监督标签,从而可以对最终结果和中间推理进行评估。 对六个不同模型系列的评估表明了我们数据集的挑战性,大多数模型的准确率不到50%。 此外,我们生成了合成训练数据,以比较结果监督奖励模型(ORMs)与过程监督奖励模型(PRMs)的性能,以评估它们在ToolComp评估下提高复杂工具使用推理能力的能力。 我们的结果表明,PRMs在泛化能力上明显优于ORMs,分别在排名基线模型和微调模型轨迹的rank@1准确率上提高了19%和11%。 这些发现突显了过程监督在人工智能模型的评估和训练中的关键作用,为在复杂多步骤工具使用任务中构建更强大和可靠系统铺平了道路。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.