计算机科学 > 计算与语言
[提交于 2024年12月31日
]
标题: LLM-Rubric:一种多维的、校准的自动化评估自然语言文本的方法
标题: LLM-Rubric: A Multidimensional, Calibrated Approach to Automated Evaluation of Natural Language Texts
摘要: 本文介绍了一种用于自动评估自然语言文本的框架。 人工构建的评分标准描述了如何评估多个感兴趣维度。 为了评估一篇文本,大型语言模型(LLM)会针对每个评分标准问题进行提示,并生成对潜在回答的分布。 LLM的预测往往与人类评判者的意见不一致——事实上,人类评判者之间也不完全一致。 然而,多个LLM分布可以与每个人类评判者的标注进行$\textit{combined}$到$\textit{predict}$,包括一个评估整体质量或相关性的总结问题。 LLM-Rubric通过训练一个包含评判者特定和评判者独立参数的小型前馈神经网络来实现这一点。 在人类-AI信息检索任务中评估对话系统时,我们发现使用9个问题(评估自然性、简洁性和引用质量等维度)的LLM-Rubric在1-4的尺度上预测人类评判者对整体用户满意度的评估,其均方根误差为$< 0.5$,比未校准的基线提高了$2\times$。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.