Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.14966

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2510.14966 (cs)
[提交于 2025年10月16日 ]

标题: 基于身份链接的IRT用于无标签LLM评估:在TVD-MI分数中保持可加性

标题: Identity-Link IRT for Label-Free LLM Evaluation: Preserving Additivity in TVD-MI Scores

Authors:Zachary Robertson
摘要: 使用总变差距离互信息(TVD-MI)对大型语言模型进行成对比较,每对产生二元评判决策。 我们证明,对TVD-MI的二元试验进行平均可得到具有适合项目反应理论(IRT)的加法结构的中心概率分数,而无需非线性链接函数。 IRT的最大似然方法使用逻辑链接,但我们发现经验上这些变换会引入破坏加性的曲率:在三个领域中,恒等链接在原始数据上的中位数弯曲为0.080-0.150(P95 = [0.474, 0.580]),而probit/logit引入了明显更高的违反情况(中位数[0.245, 0.588],P95 [0.825, 2.252])。 我们从吉尼熵最大化推导出这个截断线性模型,得到一个处理边界饱和的箱约束最小二乘公式。 在33%的覆盖率下,我们实现了保留代理排名(Spearman $\rho = 0.972 \pm 0.015$)的保留集RMSE $0.117 \pm 0.008$,所需的评估次数仅为完整密集评估的三分之一。 法官鲁棒性分析(GPT-4o-mini与Llama3-70b)显示代理排名有很强的一致性($\rho = 0.872$)和一致的恒等链接优势。 TVD-MI的几何结构通过恒等映射得到最佳保持,从而实现高效的LLM评估,适用于其他有限响应领域。
摘要: Pairwise comparisons of large language models using total variation distance mutual information (TVD-MI) produce binary critic decisions per pair. We show that averaging TVD-MI's binary trials yields centered-probability scores with additive structure suitable for item-response theory (IRT) without nonlinear link functions. Maximum-likelihood approaches to IRT use logistic links, but we find empirically that these transformations introduce curvature that breaks additivity: across three domains, the identity link yields median curl on raw data of 0.080-0.150 (P95 = [0.474, 0.580]), whereas probit/logit introduce substantially higher violations (median [0.245, 0.588], P95 [0.825, 2.252]). We derive this clipped-linear model from Gini entropy maximization, yielding a box-constrained least-squares formulation that handles boundary saturation. At 33% coverage, we achieve holdout RMSE $0.117 \pm 0.008$ while preserving agent rankings (Spearman $\rho = 0.972 \pm 0.015$), three times fewer evaluations than full dense. Judge robustness analysis (GPT-4o-mini vs. Llama3-70b) shows strong agreement in agent rankings ($\rho = 0.872$) and consistent identity-link advantage. TVD-MI's geometry is best preserved by identity mapping for efficient LLM evaluation, applicable to other bounded-response domains.
评论: 9页,2图
主题: 机器学习 (cs.LG) ; 机器学习 (stat.ML)
引用方式: arXiv:2510.14966 [cs.LG]
  (或者 arXiv:2510.14966v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.14966
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Zachary Robertson [查看电子邮件]
[v1] 星期四, 2025 年 10 月 16 日 17:59:25 UTC (477 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号