统计学 > 方法论
[提交于 2025年7月21日
]
标题: 缺失非随机数据的填补递归方程与稀疏模式支持
标题: Recursive Equations For Imputation Of Missing Not At Random Data With Sparse Pattern Support
摘要: 在数据分析流程中处理缺失值的一种常见方法是通过软件包如MICE(Van Buuren和Groothuis-Oudshoorn,2011)和Amelia(Honaker等,2011)进行多重插补。这些包通常假设数据是随机缺失(MAR),并以一种允许即使某些缺失模式在数据中没有支持的情况下也能进行插补的方式对插补分布施加参数或平滑假设。这种假设在实践中是不现实的,并且会在进行此类插补后的任何分析中导致模型误指偏差。在本文中,我们提供了一个有原则的替代方案。具体来说,我们为图形模型中的完整数据定律提供了一个新的表征。该表征是构造性的,易于适应计算MAR和MNAR(非随机缺失)机制的插补分布,并能够处理某些缺失模式缺乏支持的情况。我们利用这一表征开发了一种新的插补算法——基于支持模式递归的多变量插补(MISPR),它通过类似多变量插补与链式方程(MICE)算法的吉布斯采样来实现,但在MAR和MNAR设置下是一致的,并且能够在不施加超出缺失数据模型本身已有假设的情况下处理没有支持的缺失数据模式。在模拟中,我们展示了当数据是MAR时,MISPR的结果与MICE相当,而当数据是MNAR时,结果更优且偏差更小。我们的表征以及基于此的插补算法是使有原则的缺失数据方法在实际应用中更加实用的一个步骤,在实际应用中,数据很可能是MNAR,并且维度足够高,以至于在现有样本量下会产生没有支持的缺失数据模式。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.