计算机科学 > 机器学习
[提交于 2025年8月4日
(v1)
,最后修订 2025年8月6日 (此版本, v2)]
标题: 大陪审团:一种动态质量标准的协作机器学习模型评估协议
标题: GrandJury: A Collaborative Machine Learning Model Evaluation Protocol for Dynamic Quality Rubrics
摘要: 生成式机器学习模型已成为现代系统的核心,推动了创意写作、摘要生成、多跳推理和上下文感知对话等应用。 这些模型支撑着大规模人工智能助手、工作流自动化和自主决策。 在这些领域中,可接受的响应很少是绝对或静态的,而是多样且高度依赖于上下文的。 然而,标准的评估制度仍然依赖于静态的基准测试,鼓励优化以获得排行榜分数,而不是与动态用户需求或不断变化的现实保持一致。 GrandJury引入了一种正式的评估协议,结合时间衰减聚合、完整的可追溯性,以及对动态、透明任务评分标准的归属支持和多评估者的人类判断。 这些元素共同实现了多元化的、可问责的评估,能够捕捉不断演变的共识并揭示分歧。 我们提供了一个开源实现(grandjury PyPI包)和一个公开的大型语言模型(LLM)推理输出集合,以说明需求和方法。 GrandJury为人工智能从业者在评估没有绝对真实数据的机器学习输出时提供了一种新范式。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.