Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.00560

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2501.00560 (cs)
[提交于 2024年12月31日 (v1) ,最后修订 2025年2月11日 (此版本, v2)]

标题: 重新评估自动LLM系统排名以符合人类偏好

标题: Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference

Authors:Mingqi Gao, Yixin Liu, Xinyu Hu, Xiaojun Wan, Jonathan Bragg, Arman Cohan
摘要: 评估和排名不同大语言模型(LLM)的能力对于理解它们的性能以及与人类偏好的对齐程度至关重要。 由于人工评估成本高且耗时,自动LLM基准测试工具(即旨在根据LLM与人类偏好对齐程度对其排名的自动评估框架)是必不可少的。 一个自动LLM基准测试工具由四个组件组成:输入集(例如用户指令)、评估模型(例如LLM)、评估类型(例如成对比较)和聚合方法(例如ELO评分系统)。 然而,以往的研究尚未深入探讨如何选择这些组件,以及它们的不同组合如何影响结果。 在本工作中,通过控制实验,我们提供了一系列建议,说明如何选择每个组件以更好地实现LLM评估的自动化。 此外,我们发现当使用自动LLM基准测试工具评估性能相近的LLM时,其性能会急剧下降,这突显了当前基准测试工具的局限性,并呼吁未来的研究工作。 最后,我们发现评估模型在实例层面的性能(例如选择最佳输出的准确性)并不总能与其作为基准测试工具组件时的有效性保持一致,这突显了对基准测试工具进行专门系统级评估的重要性。
摘要: Evaluating and ranking the capabilities of different LLMs is crucial for understanding their performance and alignment with human preferences. Due to the high cost and time-consuming nature of human evaluations, an automatic LLM bencher (i.e., an automatic evaluation framework that aims to rank LLMs based on their alignment with human preferences) is indispensable. An automatic LLM bencher consists of four components: the input set (e.g., a user instruction), the evaluation model (e.g., an LLM), the evaluation type (e.g., pairwise comparison), and the aggregation method (e.g., the ELO rating system). However, previous work has not thoroughly explored how to select these components or how their different combinations influence the results. In this work, through controlled experiments, we provide a series of recommendations on how to choose each component to better automate the evaluation of LLMs. Furthermore, we discovered that when evaluating LLMs with similar performance, the performance of the automatic LLM bencher declines sharply, underscoring the limitations of current benchers and calling for future work. Lastly, we found that the evaluation models' performance at the instance level (e.g., the accuracy of selecting the best output) does not always align with their effectiveness when used as a component of a bencher, highlighting the importance of dedicated system-level evaluation of benchers.
评论: NAACL 2025的成果
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI); 机器学习 (cs.LG)
引用方式: arXiv:2501.00560 [cs.CL]
  (或者 arXiv:2501.00560v2 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.00560
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Mingqi Gao [查看电子邮件]
[v1] 星期二, 2024 年 12 月 31 日 17:46:51 UTC (401 KB)
[v2] 星期二, 2025 年 2 月 11 日 10:02:55 UTC (406 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.AI
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号