计算机科学 > 人工智能
[提交于 2025年5月1日
(v1)
,最后修订 2025年5月29日 (此版本, v2)]
标题: 位置:人工智能竞赛为通用人工智能评估提供了经验严谨性的黄金标准
标题: Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation
摘要: 在这篇立场文件中,我们观察到生成式人工智能(Generative AI)的实证评估正处于危机点,因为传统的机器学习评估和基准测试策略不足以满足评估现代生成式人工智能模型和系统的需求。 这一问题的原因有很多,包括这些模型通常具有几乎无限的输入和输出空间,通常没有明确的地面真实目标,并且通常表现出基于先前模型输出上下文的强大反馈回路和预测依赖性。 除了这些关键问题之外,我们认为泄漏和污染问题是生成式人工智能评估中最重要且最难以解决的问题。 有趣的是,人工智能竞赛领域已经开发出有效的措施和实践来对抗泄漏,目的是为了抵消竞争环境中不良行为者的作弊行为。 这使得人工智能竞赛成为一种特别有价值(但未充分利用的)资源。 现在是该领域将人工智能竞赛视为生成式人工智能评估经验严谨性的黄金标准的时候了,并且应该根据其价值来利用和收获其成果。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.