Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.02926

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2508.02926 (cs)
[提交于 2025年8月4日 (v1) ,最后修订 2025年8月6日 (此版本, v2)]

标题: 大陪审团:一种动态质量标准的协作机器学习模型评估协议

标题: GrandJury: A Collaborative Machine Learning Model Evaluation Protocol for Dynamic Quality Rubrics

Authors:Arthur Cho
摘要: 生成式机器学习模型已成为现代系统的核心,推动了创意写作、摘要生成、多跳推理和上下文感知对话等应用。 这些模型支撑着大规模人工智能助手、工作流自动化和自主决策。 在这些领域中,可接受的响应很少是绝对或静态的,而是多样且高度依赖于上下文的。 然而,标准的评估制度仍然依赖于静态的基准测试,鼓励优化以获得排行榜分数,而不是与动态用户需求或不断变化的现实保持一致。 GrandJury引入了一种正式的评估协议,结合时间衰减聚合、完整的可追溯性,以及对动态、透明任务评分标准的归属支持和多评估者的人类判断。 这些元素共同实现了多元化的、可问责的评估,能够捕捉不断演变的共识并揭示分歧。 我们提供了一个开源实现(grandjury PyPI包)和一个公开的大型语言模型(LLM)推理输出集合,以说明需求和方法。 GrandJury为人工智能从业者在评估没有绝对真实数据的机器学习输出时提供了一种新范式。
摘要: Generative Machine Learning models have become central to modern systems, powering applications in creative writing, summarization, multi-hop reasoning, and context-aware dialogue. These models underpin large-scale AI assistants, workflow automation, and autonomous decision-making. In such domains, acceptable response is rarely absolute or static, but plural and highly context-dependent. Yet standard evaluation regimes still rely on static, benchmark-style tests, incentivizing optimization toward leaderboard scores rather than alignment with dynamic user needs or evolving realities. GrandJury introduces a formal evaluation protocol combining time-decayed aggregation, complete traceability, with the support of dynamic, transparent task rubric attribution, and multi-rater human judgment. Together, these elements enable pluralistic, accountable evaluation that captures evolving consensus and surfaces disagreement. We provide an open-source implementation (grandjury PyPI package) and a public collection of Large Language Model (LLM) inference outputs to illustrate the need and method. GrandJury provides a new paradigm for AI practitioners when evaluating machine learning outputs without absolute ground truth.
评论: 14页(包括arXiv封面),1张表格,内部包含代码和数据集链接。开源实现可在PyPI(grandjury包)和GitHub上获得。数据集可在Hugging Face上获取,采用CC-BY-4.0许可。
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI); 人机交互 (cs.HC)
ACM 类: I.2.6; I.2.7
引用方式: arXiv:2508.02926 [cs.LG]
  (或者 arXiv:2508.02926v2 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.02926
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Arthur Cho [查看电子邮件]
[v1] 星期一, 2025 年 8 月 4 日 22:00:44 UTC (13 KB)
[v2] 星期三, 2025 年 8 月 6 日 19:57:38 UTC (13 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.AI
cs.HC

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号