计算机科学 > 计算与语言
[提交于 2024年12月31日
(v1)
,最后修订 2025年2月11日 (此版本, v2)]
标题: 重新评估自动LLM系统排名以符合人类偏好
标题: Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference
摘要: 评估和排名不同大语言模型(LLM)的能力对于理解它们的性能以及与人类偏好的对齐程度至关重要。 由于人工评估成本高且耗时,自动LLM基准测试工具(即旨在根据LLM与人类偏好对齐程度对其排名的自动评估框架)是必不可少的。 一个自动LLM基准测试工具由四个组件组成:输入集(例如用户指令)、评估模型(例如LLM)、评估类型(例如成对比较)和聚合方法(例如ELO评分系统)。 然而,以往的研究尚未深入探讨如何选择这些组件,以及它们的不同组合如何影响结果。 在本工作中,通过控制实验,我们提供了一系列建议,说明如何选择每个组件以更好地实现LLM评估的自动化。 此外,我们发现当使用自动LLM基准测试工具评估性能相近的LLM时,其性能会急剧下降,这突显了当前基准测试工具的局限性,并呼吁未来的研究工作。 最后,我们发现评估模型在实例层面的性能(例如选择最佳输出的准确性)并不总能与其作为基准测试工具组件时的有效性保持一致,这突显了对基准测试工具进行专门系统级评估的重要性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.