计算机科学 > 计算与语言
[提交于 2024年12月31日
]
标题: EQUATOR:一种用于评估开放式问题中大语言模型推理的确定性框架。 # v1.0.0-beta
标题: EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta
摘要: 尽管大型语言模型(LLMs)表现出显著的一致性,现有的评估方法往往存在流利度偏差,并且高度依赖选择题格式,这使得难以有效评估事实准确性和复杂推理能力。 因此,LLMs经常生成事实不准确的回应,特别是在复杂推理任务中,这突显了两个显著挑战:(1) 现有方法在有效评估推理和事实准确性方面的不足,以及 (2) 依赖人类评估者进行细微判断,如Williams和Huckle (2024)[1]所展示的,他们发现即使在自动评分进步的情况下,人工评分仍然是不可或缺的。 为了解决开放性推理任务中的评估缺口,我们引入了EQUATOR评估器(开放性推理问题回答全面性的评估)。 该框架结合了确定性评分,并注重事实准确性和稳健的推理评估。 使用向量数据库,EQUATOR将开放性问题与人工评估的答案配对,从而实现更精确和可扩展的评估。 实际上,与Williams和Huckle的(2004)[1]方法相比,EQUATOR显著减少了对人工评估者的依赖并提高了可扩展性。 我们的结果表明,该框架在保持高准确率标准的同时,明显优于传统的选择题评估。 此外,我们引入了一种利用较小的本地托管LLM的自动化评估过程。 我们使用了LLaMA 3.2B,在Ollama二进制文件上运行以简化我们的评估。 这项工作确立了评估LLM性能的新范式,强调事实准确性和推理能力,并为未来的研究提供了坚实的理论基础。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.