计算机科学 > 人工智能
[提交于 2024年6月3日
]
标题: Favi-Score:用于生成式人工智能评估中偏袒行为的自动化偏好评分测量方法
标题: Favi-Score: A Measure for Favoritism in Automated Preference Ratings for Generative AI Evaluation
摘要: 生成式AI系统已经普及到各种模态,这使得评估这些模型的问题变得更加紧迫。 一种流行的方法是偏好评分,其中不同系统的生成输出展示给评估者,评估者选择他们的偏好。 近年来,该领域转向开发自动(训练过的)度量标准来评估生成的输出,这些度量标准可以用来自动创建偏好评分。 在本工作中,我们研究了度量标准本身的评估,目前这些度量标准依赖于测量与人类判断的相关性或计算符号准确率得分。 这些措施仅评估度量标准与人类评分的一致性程度。 然而,我们的研究表明,这并没有讲完整个故事。 大多数度量标准与人类系统评估存在分歧,这种分歧往往偏向于特定的文本生成系统,暴露出自动化度量标准中存在一定程度的偏袒。 本文引入了偏好度量中偏袒的正式定义,并推导出了Favi-分数,用于衡量这一现象。 特别是,我们展示了偏袒与最终系统排名中的错误密切相关。 因此,我们建议基于偏好的度量标准应在符号准确率得分和偏袒性两方面进行评估。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.