Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.01831

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2507.01831 (cs)
[提交于 2025年7月2日 ]

标题: 分布外检测方法回答了错误的问题

标题: Out-of-Distribution Detection Methods Answer the Wrong Questions

Authors:Yucen Lily Li, Daohan Lu, Polina Kirichenko, Shikai Qiu, Tim G. J. Rudner, C. Bayan Bruss, Andrew Gordon Wilson
摘要: 为了检测分布偏移并提高模型安全性,许多分布外(OOD)检测方法依赖于在分布内数据上训练的监督模型的预测不确定性或特征。 在本文中,我们对这一流行的OOD检测方法进行了深入的重新审视,并认为这些方法在OOD检测中本质上是回答了错误的问题。 这种不匹配没有简单的解决办法,因为仅在分布内类别上训练的分类器无法被期望识别分布外点;例如,一只猫狗分类器可能会自信地将一架飞机误分类,如果它包含区分猫和狗的特征,尽管它们通常看起来完全不同。 我们发现基于不确定性的方法错误地将高不确定性与分布外混为一谈,而基于特征的方法则错误地将特征空间中的远距离与分布外混为一谈。 我们展示了这些病理现象如何作为OOD检测中的不可减少的错误表现出来,并确定了这些方法无效的常见场景。 此外,旨在提高OOD检测的干预措施,如特征-逻辑混合方法、模型和数据规模的扩展、认识论不确定性表示以及异常暴露,也未能解决目标的根本性不匹配。 我们还考虑了用于OOD检测的无监督密度估计和生成模型,我们表明它们也有其自身的根本限制。
摘要: To detect distribution shifts and improve model safety, many out-of-distribution (OOD) detection methods rely on the predictive uncertainty or features of supervised models trained on in-distribution data. In this paper, we critically re-examine this popular family of OOD detection procedures, and we argue that these methods are fundamentally answering the wrong questions for OOD detection. There is no simple fix to this misalignment, since a classifier trained only on in-distribution classes cannot be expected to identify OOD points; for instance, a cat-dog classifier may confidently misclassify an airplane if it contains features that distinguish cats from dogs, despite generally appearing nothing alike. We find that uncertainty-based methods incorrectly conflate high uncertainty with being OOD, while feature-based methods incorrectly conflate far feature-space distance with being OOD. We show how these pathologies manifest as irreducible errors in OOD detection and identify common settings where these methods are ineffective. Additionally, interventions to improve OOD detection such as feature-logit hybrid methods, scaling of model and data size, epistemic uncertainty representation, and outlier exposure also fail to address this fundamental misalignment in objectives. We additionally consider unsupervised density estimation and generative models for OOD detection, which we show have their own fundamental limitations.
评论: ICML 2025论文的扩展版本
主题: 机器学习 (cs.LG) ; 机器学习 (stat.ML)
引用方式: arXiv:2507.01831 [cs.LG]
  (或者 arXiv:2507.01831v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.01831
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Yucen Li [查看电子邮件]
[v1] 星期三, 2025 年 7 月 2 日 15:45:17 UTC (12,222 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号