计算机科学 > 人工智能
[提交于 2025年5月1日
(此版本)
, 最新版本 2025年5月29日 (v2)
]
标题: 位置:人工智能竞赛为生成式人工智能评估提供金标准的实证严谨性
标题: Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation
摘要: 在这篇立场文件中,我们观察到生成式人工智能(Generative AI)中的经验评估正处于危机点,因为传统的机器学习评估和基准测试策略不足以满足评估现代生成式人工智能模型和系统的需求。 存在许多原因,包括这些模型通常具有几乎无限的输入和输出空间,通常没有明确的ground truth目标,并且通常表现出基于先前模型输出上下文的强大反馈回路和预测依赖性。 除了这些问题之外,我们认为 {\emleakage } 和 {\em 污染} 的问题是事实上生成式人工智能评估中最重要和最困难的问题。 有趣的是,人工智能竞赛领域已经开发出有效的措施和实践来对抗比赛环境中不良行为者的作弊行为,从而防止信息泄露。 这使得人工智能竞赛成为特别有价值(但未充分利用)的资源。 现在是该领域将人工智能竞赛视为生成式人工智能评估的经验严谨性的黄金标准的时候了,并且应该根据其价值来利用和收获它们的结果。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.