统计学 > 机器学习
[提交于 2015年12月10日
]
标题: 基于树的方法中的交叉验证变量选择提高了预测性能
标题: Cross-Validated Variable Selection in Tree-Based Methods Improves Predictive Performance
摘要: 递归划分方法生成类似树的模型是预测建模中长期使用的方法,在过去十年中主要作为先进集成方法如提升和随机森林中的“子学习者”。 然而,常用树构建方法的划分(或分割)规则存在一个根本性缺陷,这使得它们无法平等地处理不同类型的变量。 这种方法在处理具有大量类别的分类变量时表现不佳,而这类变量在大数据时代非常普遍。 这些变量通常非常有信息量,但当前的树方法基本上让我们只能选择不使用它们,或者让我们的模型面临严重的过拟合问题。 我们提出了一种概念框架,使用留一法(LOO)交叉验证来选择划分变量,然后对选定的变量进行常规划分(在我们的情况下,遵循CART的方法)。 我们方法最重要的结果是,具有许多类别的分类变量可以在树构建中安全使用,并且只有在有助于预测能力时才会被选中。 我们在广泛的模拟和实际数据分析中证明,我们的新型划分方法显著提高了单棵树模型和利用树的集成方法的性能。 重要的是,我们设计了一个LOO划分变量选择算法,在合理假设下,与CART相比,对于二类分类任务不会增加总体计算复杂度。 对于回归任务,我们的方法会增加计算负担,将CART划分规则搜索中的O(log(n))因子替换为O(n)项。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.