计算机科学 > 人工智能
[提交于 2025年7月15日
]
标题: DrafterBench:用于土木工程任务自动化的大型语言模型基准测试
标题: DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering
摘要: 大型语言模型(LLM)代理在解决现实问题方面表现出巨大的潜力,并有望成为工业任务自动化的一种解决方案。 然而,需要更多的基准测试来从工业角度系统地评估自动化代理,例如在土木工程中。 因此,我们提出了DrafterBench,用于在技术图纸修订的背景下对LLM代理进行全面评估,这是土木工程中的一项表示任务。 DrafterBench包含从实际图纸文件中总结出的十二种任务,具有46个自定义功能/工具,总共1920个任务。 DrafterBench是一个开源基准,用于严格测试AI代理在解释复杂和长上下文指令、利用先验知识以及通过隐式策略意识适应动态指令质量方面的熟练程度。 该工具包全面评估结构化数据理解、功能执行、指令遵循和批判性推理等方面的不同能力。 DrafterBench提供任务准确性及错误统计的详细分析,旨在深入洞察代理能力,并确定在工程应用中集成LLM的改进目标。 我们的基准可在https://github.com/Eason-Li-AIS/DrafterBench获取,测试集托管于https://huggingface.co/datasets/Eason666/DrafterBench。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.