统计学 > 方法论
[提交于 2022年5月15日
]
标题: 协变量高缺失率数据的半监督学习方法填补
标题: Imputations for High Missing Rate Data in Covariates via Semi-supervised Learning Approach
摘要: 数据收集技术的进步和数据资源的异质性可能导致变量上出现高比例的缺失观测值,例如块状缺失数据。 在缺失数据场景下,传统的方法如简单平均、$k$-最近邻、多重和回归插补可能会导致结果不稳定或无法计算。 受半监督学习概念的启发(参见,例如Zhu和Goldberg,2009和Chapelle等,2010),我们提出了一种新方法,用于填补具有高缺失率的协变量中的缺失值。 具体来说,我们将任何协变量中的缺失和非缺失个体分别视为未标记和已标记的目标输出,并将它们相应的响应视为未标记和已标记的输入。 这种创新设置使我们能够在不施加任何模型假设的情况下插补大量缺失数据。 此外,对于连续协变量,得到的插补具有闭合形式,并且可以高效计算。 类似的过程也适用于离散协变量。 我们进一步采用非参数技术来展示插补协变量的理论性质。 通过模拟研究和一个在线消费金融的例子,展示了所提出方法的实用性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.