数学 > 统计理论
[提交于 2025年10月1日
]
标题: 共线性效应在机器学习变量重要性度量中的数学理论
标题: Mathematical Theory of Collinearity Effects on Machine Learning Variable Importance Measures
摘要: 在许多机器学习问题中,理解变量重要性是一个核心关注点。 两种常见的方法是Permute-and-Predict(PaP),它在验证集中随机打乱一个特征,以及Leave-One-Covariate-Out(LOCO),它在打乱训练特征后重新训练模型。 这两种方法都认为,如果使用原始数据的预测结果明显优于打乱后的预测结果,则该变量是重要的。 在线性回归中,实证研究将PaP与回归系数相关联,将LOCO与$t$统计量相关联,但缺乏正式的理论。 我们推导了这两种度量的闭式表达式,使用平方根变换来表示。 显示PaP与系数和预测变量的变异性成比例:$\text{PaP}_i = \beta_i \sqrt{2\operatorname{Var}(\mathbf{x}^v_i)}$,而LOCO与系数成比例,但受到共线性的抑制(由$\Delta$捕获):$\text{LOCO}_i = \beta_i (1 -\Delta)\sqrt{1 + c}$。 这些推导解释了为什么PaP基本上不受多重共线性的影响,而LOCO则对其高度敏感。 蒙特卡洛模拟证实了这些发现,在不同共线性水平下均成立。 尽管这些结果是针对线性回归推导的,但我们还表明,这些结果对于像随机森林这样的模型提供了合理的近似。 总体而言,这项工作为两种广泛使用的重要性度量建立了理论基础,帮助分析人员理解它们如何受到真实系数、维度和协方差结构的影响。 这项工作连接了实证证据和理论,增强了变量重要性度量的可解释性和应用性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.