计算机科学 > 软件工程
[提交于 2025年7月13日
]
标题: 评估LLMs在顺序API调用上的自动化测试生成
标题: Evaluating LLMs on Sequential API Call Through Automated Test Generation
摘要: 通过整合外部API的工具,大型语言模型(LLMs)在各种复杂的现实任务中扩展了其有前途的能力。 然而,对LLM工具使用的测试、评估和分析仍处于早期阶段。 大多数现有的基准测试依赖于手动收集的测试用例,其中许多无法自动检查语义正确性,而是依赖于静态方法,如字符串匹配。 此外,这些基准常常忽略了序列API调用之间发生的复杂交互,而这种交互在现实应用中很常见。 为了填补这一空白,本文我们介绍了StateGen,一个自动化框架,旨在生成涉及序列API交互的多样化编码任务。 StateGen结合了基于状态机的API约束求解和验证、基于能量的采样以及控制流注入,以生成可执行程序。 然后通过两个LLM代理的合作,将这些程序翻译成类似人类的自然语言任务描述。 利用StateGen,我们构建了StateEval,一个涵盖120个经过验证的测试用例的基准,覆盖三个代表性场景:Session Service、Tensor Operation和ElevenLabs MCP。 实验结果证实,StateGen能够有效生成具有挑战性和现实意义的面向API的任务,突出了当前集成API的LLMs需要改进的领域。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.