统计学 > 计算
[提交于 2012年8月28日
]
标题: 具有分类预测变量的S估计量的非奇异子抽样
标题: Nonsingular subsampling for S-estimators with categorical predictors
摘要: 许多线性回归S估计量算法的一个重要组成部分是随机子抽样。 对于只有连续预测变量的问题,简单随机子抽样是一种可靠的方法来生成初始的系数估计值,然后可以进一步细化这些估计值。 然而,对于具有分类预测变量的数据,随机子抽样通常不起作用,从而限制了这种原本很好的估计器的使用。 这也使得稳健线性回归的估计器选择依赖于预测变量的类型,在实践中这是一个不必要的麻烦。 对于具有分类预测变量的数据,随机子抽样常常会产生奇异子样本。 由于这些子样本不能用于计算系数估计值,必须将其丢弃。 这使得随机子抽样变得缓慢,特别是当某些分类预测变量的水平频率较低时,并使算法对于此类问题不可行。 本文介绍了一种改进的子抽样算法,该算法只会生成非奇异子样本。 我们称之为非奇异子抽样。 对于具有连续变量的数据,它与简单的随机子抽样一样快,但对于具有分类预测变量的数据则快得多。 这是通过使用一种修改后的LU分解算法实现的,该算法结合了样本生成和最小二乘问题求解的过程。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.