Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.11527

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2507.11527 (cs)
[提交于 2025年7月15日 ]

标题: DrafterBench:用于土木工程任务自动化的大型语言模型基准测试

标题: DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering

Authors:Yinsheng Li, Zhen Dong, Yi Shao
摘要: 大型语言模型(LLM)代理在解决现实问题方面表现出巨大的潜力,并有望成为工业任务自动化的一种解决方案。 然而,需要更多的基准测试来从工业角度系统地评估自动化代理,例如在土木工程中。 因此,我们提出了DrafterBench,用于在技术图纸修订的背景下对LLM代理进行全面评估,这是土木工程中的一项表示任务。 DrafterBench包含从实际图纸文件中总结出的十二种任务,具有46个自定义功能/工具,总共1920个任务。 DrafterBench是一个开源基准,用于严格测试AI代理在解释复杂和长上下文指令、利用先验知识以及通过隐式策略意识适应动态指令质量方面的熟练程度。 该工具包全面评估结构化数据理解、功能执行、指令遵循和批判性推理等方面的不同能力。 DrafterBench提供任务准确性及错误统计的详细分析,旨在深入洞察代理能力,并确定在工程应用中集成LLM的改进目标。 我们的基准可在https://github.com/Eason-Li-AIS/DrafterBench获取,测试集托管于https://huggingface.co/datasets/Eason666/DrafterBench。
摘要: Large Language Model (LLM) agents have shown great potential for solving real-world problems and promise to be a solution for tasks automation in industry. However, more benchmarks are needed to systematically evaluate automation agents from an industrial perspective, for example, in Civil Engineering. Therefore, we propose DrafterBench for the comprehensive evaluation of LLM agents in the context of technical drawing revision, a representation task in civil engineering. DrafterBench contains twelve types of tasks summarized from real-world drawing files, with 46 customized functions/tools and 1920 tasks in total. DrafterBench is an open-source benchmark to rigorously test AI agents' proficiency in interpreting intricate and long-context instructions, leveraging prior knowledge, and adapting to dynamic instruction quality via implicit policy awareness. The toolkit comprehensively assesses distinct capabilities in structured data comprehension, function execution, instruction following, and critical reasoning. DrafterBench offers detailed analysis of task accuracy and error statistics, aiming to provide deeper insight into agent capabilities and identify improvement targets for integrating LLMs in engineering applications. Our benchmark is available at https://github.com/Eason-Li-AIS/DrafterBench, with the test set hosted at https://huggingface.co/datasets/Eason666/DrafterBench.
评论: 项目页面:https://github.com/Eason-Li-AIS/DrafterBench
主题: 人工智能 (cs.AI) ; 计算工程、金融与科学 (cs.CE)
引用方式: arXiv:2507.11527 [cs.AI]
  (或者 arXiv:2507.11527v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.11527
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Yinsheng Li [查看电子邮件]
[v1] 星期二, 2025 年 7 月 15 日 17:56:04 UTC (19,673 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.CE

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号