计算机科学 > 软件工程
[提交于 2025年7月22日
]
标题: 关于LLM作为评判者在代码生成和摘要中的有效性
标题: On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization
摘要: 大型语言模型最近被用作复杂自然语言处理任务的评判者,例如问答。 基本思想是将评估自动化技术在特定任务中的“质量”委托给大型语言模型,这些任务具有以下特点:(i) 定量指标只能部分反映实际情况,以及;(ii) 大规模的人工评估成本太高。 如果证明大型语言模型作为评判者对特定任务有效,那么它也可以为自动化带来新的可能性,多个大型语言模型为给定任务实例提出解决方案,其他模型则进行评判并决定向用户展示的最佳输出。 我们研究了大型语言模型作为评判者在两个与代码相关的任务中的有效性,即代码生成和代码摘要。 选择这些任务的原因有两个。 首先,定量指标通常不足以评估代码摘要器/生成器。 例如,有大量文献表明,像BLEU这样的指标对于生成摘要的质量来说是一个相当弱的代理。 其次,即使是最先进的技术仍然难以处理这些任务的复杂实例,使它们成为受益于更高级解决方案的候选者,这些解决方案设想了大型语言模型之间的协作。 对于代码生成,我们检查八个大型语言模型是否能够判断由同一大型语言模型生成或由人类实现的1,405个Java方法和1,281个Python函数的正确性。 对于代码摘要,我们将五个大型语言模型的判断与九个人提供的判断进行比较,涉及约1.2k个与Java和Python函数相关的摘要。 我们的研究结果表明,在这两个任务中,GPT-4-turbo是评判能力最强的大型语言模型,而参数数量为数十亿的“较小”大型语言模型无法应对评判任务。 然而,即使是表现最好的大型语言模型也经常错误地判断代码的正确性和摘要的质量。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.