Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:1512.03444v1

帮助 | 高级搜索

统计学 > 机器学习

arXiv:1512.03444v1 (stat)
[提交于 2015年12月10日 ]

标题: 基于树的方法中的交叉验证变量选择提高了预测性能

标题: Cross-Validated Variable Selection in Tree-Based Methods Improves Predictive Performance

Authors:Amichai Painsky, Saharon Rosset
摘要: 递归划分方法生成类似树的模型是预测建模中长期使用的方法,在过去十年中主要作为先进集成方法如提升和随机森林中的“子学习者”。 然而,常用树构建方法的划分(或分割)规则存在一个根本性缺陷,这使得它们无法平等地处理不同类型的变量。 这种方法在处理具有大量类别的分类变量时表现不佳,而这类变量在大数据时代非常普遍。 这些变量通常非常有信息量,但当前的树方法基本上让我们只能选择不使用它们,或者让我们的模型面临严重的过拟合问题。 我们提出了一种概念框架,使用留一法(LOO)交叉验证来选择划分变量,然后对选定的变量进行常规划分(在我们的情况下,遵循CART的方法)。 我们方法最重要的结果是,具有许多类别的分类变量可以在树构建中安全使用,并且只有在有助于预测能力时才会被选中。 我们在广泛的模拟和实际数据分析中证明,我们的新型划分方法显著提高了单棵树模型和利用树的集成方法的性能。 重要的是,我们设计了一个LOO划分变量选择算法,在合理假设下,与CART相比,对于二类分类任务不会增加总体计算复杂度。 对于回归任务,我们的方法会增加计算负担,将CART划分规则搜索中的O(log(n))因子替换为O(n)项。
摘要: Recursive partitioning approaches producing tree-like models are a long standing staple of predictive modeling, in the last decade mostly as ``sub-learners'' within state of the art ensemble methods like Boosting and Random Forest. However, a fundamental flaw in the partitioning (or splitting) rule of commonly used tree building methods precludes them from treating different types of variables equally. This most clearly manifests in these methods' inability to properly utilize categorical variables with a large number of categories, which are ubiquitous in the new age of big data. Such variables can often be very informative, but current tree methods essentially leave us a choice of either not using them, or exposing our models to severe overfitting. We propose a conceptual framework to splitting using leave-one-out (LOO) cross validation for selecting the splitting variable, then performing a regular split (in our case, following CART's approach) for the selected variable. The most important consequence of our approach is that categorical variables with many categories can be safely used in tree building and are only chosen if they contribute to predictive power. We demonstrate in extensive simulation and real data analysis that our novel splitting approach significantly improves the performance of both single tree models and ensemble methods that utilize trees. Importantly, we design an algorithm for LOO splitting variable selection which under reasonable assumptions does not increase the overall computational complexity compared to CART for two-class classification. For regression tasks, our approach carries an increased computational burden, replacing a O(log(n)) factor in CART splitting rule search with an O(n) term.
主题: 机器学习 (stat.ML)
引用方式: arXiv:1512.03444 [stat.ML]
  (或者 arXiv:1512.03444v1 [stat.ML] 对于此版本)
  https://doi.org/10.48550/arXiv.1512.03444
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Amichai Painsky [查看电子邮件]
[v1] 星期四, 2015 年 12 月 10 日 21:20:14 UTC (928 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
stat.ML
< 上一篇   |   下一篇 >
新的 | 最近的 | 2015-12
切换浏览方式为:
stat

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号