Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2108.00250

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2108.00250 (cs)
[提交于 2021年7月31日 ]

标题: 贝叶斯分析流行偏差:从不平衡数据中学习和预测

标题: Bayesian analysis of the prevalence bias: learning and predicting from imbalanced data

Authors:Loic Le Folgoc, Vasileios Baltatzis, Amir Alansary, Sujal Desai, Anand Devaraj, Sam Ellis, Octavio E. Martinez Manzanera, Fahdi Kanavati, Arjun Nair, Julia Schnabel, Ben Glocker
摘要: 数据集很少是对目标人群的现实近似。 例如,患病率被错误表示,图像质量高于临床标准等。 这种不匹配被称为抽样偏差。 抽样偏差是机器学习模型的主要障碍。 它们导致了实验室中的模型性能与现实世界中的性能之间存在显著差距。 我们的工作是解决患病率偏差的方案。 患病率偏差是指病理学的患病率与其在训练数据集中的抽样率之间的差异,这在数据收集过程中或由于实践者重新平衡训练批次而引入。 本文建立了在存在患病率偏差的情况下进行模型训练和预测的理论和计算框架。 具体而言,在贝叶斯风险最小化原则下推导出一种偏差校正的损失函数以及偏差校正的预测规则。 该损失函数与信息增益有直接联系。 它为启发式训练损失提供了一个有原则的替代方案,并补充了基于从汇总曲线中选择操作点的测试时程序。 它能够无缝集成到当前的(深度)学习范式中,使用随机反向传播,并自然地与贝叶斯模型结合。
摘要: Datasets are rarely a realistic approximation of the target population. Say, prevalence is misrepresented, image quality is above clinical standards, etc. This mismatch is known as sampling bias. Sampling biases are a major hindrance for machine learning models. They cause significant gaps between model performance in the lab and in the real world. Our work is a solution to prevalence bias. Prevalence bias is the discrepancy between the prevalence of a pathology and its sampling rate in the training dataset, introduced upon collecting data or due to the practioner rebalancing the training batches. This paper lays the theoretical and computational framework for training models, and for prediction, in the presence of prevalence bias. Concretely a bias-corrected loss function, as well as bias-corrected predictive rules, are derived under the principles of Bayesian risk minimization. The loss exhibits a direct connection to the information gain. It offers a principled alternative to heuristic training losses and complements test-time procedures based on selecting an operating point from summary curves. It integrates seamlessly in the current paradigm of (deep) learning using stochastic backpropagation and naturally with Bayesian models.
主题: 机器学习 (cs.LG) ; 定量方法 (q-bio.QM); 应用 (stat.AP); 方法论 (stat.ME); 机器学习 (stat.ML)
引用方式: arXiv:2108.00250 [cs.LG]
  (或者 arXiv:2108.00250v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2108.00250
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Loic Le Folgoc [查看电子邮件]
[v1] 星期六, 2021 年 7 月 31 日 14:36:33 UTC (4,773 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2021-08
切换浏览方式为:
cs
q-bio
q-bio.QM
stat
stat.AP
stat.ME
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号