Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.00257v1

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2501.00257v1 (cs)
[提交于 2024年12月31日 ]

标题: EQUATOR:一种用于评估开放式问题中大语言模型推理的确定性框架。 # v1.0.0-beta

标题: EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta

Authors:Raymond Bernard, Shaina Raza (PhD), Subhabrata Das (PhD), Rahul Murugan
摘要: 尽管大型语言模型(LLMs)表现出显著的一致性,现有的评估方法往往存在流利度偏差,并且高度依赖选择题格式,这使得难以有效评估事实准确性和复杂推理能力。 因此,LLMs经常生成事实不准确的回应,特别是在复杂推理任务中,这突显了两个显著挑战:(1) 现有方法在有效评估推理和事实准确性方面的不足,以及 (2) 依赖人类评估者进行细微判断,如Williams和Huckle (2024)[1]所展示的,他们发现即使在自动评分进步的情况下,人工评分仍然是不可或缺的。 为了解决开放性推理任务中的评估缺口,我们引入了EQUATOR评估器(开放性推理问题回答全面性的评估)。 该框架结合了确定性评分,并注重事实准确性和稳健的推理评估。 使用向量数据库,EQUATOR将开放性问题与人工评估的答案配对,从而实现更精确和可扩展的评估。 实际上,与Williams和Huckle的(2004)[1]方法相比,EQUATOR显著减少了对人工评估者的依赖并提高了可扩展性。 我们的结果表明,该框架在保持高准确率标准的同时,明显优于传统的选择题评估。 此外,我们引入了一种利用较小的本地托管LLM的自动化评估过程。 我们使用了LLaMA 3.2B,在Ollama二进制文件上运行以简化我们的评估。 这项工作确立了评估LLM性能的新范式,强调事实准确性和推理能力,并为未来的研究提供了坚实的理论基础。
摘要: Despite the remarkable coherence of Large Language Models (LLMs), existing evaluation methods often suffer from fluency bias and rely heavily on multiple-choice formats, making it difficult to assess factual accuracy and complex reasoning effectively. LLMs thus frequently generate factually inaccurate responses, especially in complex reasoning tasks, highlighting two prominent challenges: (1) the inadequacy of existing methods to evaluate reasoning and factual accuracy effectively, and (2) the reliance on human evaluators for nuanced judgment, as illustrated by Williams and Huckle (2024)[1], who found manual grading indispensable despite automated grading advancements. To address evaluation gaps in open-ended reasoning tasks, we introduce the EQUATOR Evaluator (Evaluation of Question Answering Thoroughness in Open-ended Reasoning). This framework combines deterministic scoring with a focus on factual accuracy and robust reasoning assessment. Using a vector database, EQUATOR pairs open-ended questions with human-evaluated answers, enabling more precise and scalable evaluations. In practice, EQUATOR significantly reduces reliance on human evaluators for scoring and improves scalability compared to Williams and Huckle's (2004)[1] methods. Our results demonstrate that this framework significantly outperforms traditional multiple-choice evaluations while maintaining high accuracy standards. Additionally, we introduce an automated evaluation process leveraging smaller, locally hosted LLMs. We used LLaMA 3.2B, running on the Ollama binaries to streamline our assessments. This work establishes a new paradigm for evaluating LLM performance, emphasizing factual accuracy and reasoning ability, and provides a robust methodological foundation for future research.
主题: 计算与语言 (cs.CL)
MSC 类: 68T20
ACM 类: I.2.7; I.2.6; H.3.3
引用方式: arXiv:2501.00257 [cs.CL]
  (或者 arXiv:2501.00257v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.00257
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Raymond Bernard [查看电子邮件]
[v1] 星期二, 2024 年 12 月 31 日 03:56:17 UTC (1,404 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号