计算机科学 > 机器学习
[提交于 2025年4月2日
(v1)
,最后修订 2025年6月12日 (此版本, v2)]
标题: 接收机工作特性曲线与精确率-召回率曲线的几何学研究
标题: On the Geometry of Receiver Operating Characteristic and Precision-Recall Curves
摘要: 我们研究了二分类问题中接收者操作特征(ROC)曲线和精确率-召回率(PR)曲线的几何性质。关键发现是,许多最常用的二分类指标仅仅是组成函数 $G := F_p \circ F_n^{-1}$ 的函数,其中 $F_p(\cdot)$ 和 $F_n(\cdot)$ 分别是正类和负类中分类器得分的类别条件累积分布函数。 这种几何视角有助于选择工作点、理解决策阈值的影响以及比较不同分类器。它还帮助解释了ROC/PR曲线的形状和几何特性如何反映分类器的行为,并提供了构建针对特定应用和上下文约束优化的分类器的客观工具。 我们进一步探讨了分类器占优的条件,通过分析和数值例子展示了类别可分性和方差对ROC和PR几何特性的影响,并推导了正类到负类泄漏函数 $G(\cdot)$ 与Kullback-Leibler散度之间的联系。该框架强调了实际考虑因素,如模型校准、代价敏感优化以及在现实世界容量限制下的工作点选择,从而促进了更明智的分类器部署和决策方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.