Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:2507.16107

帮助 | 高级搜索

统计学 > 方法论

arXiv:2507.16107 (stat)
[提交于 2025年7月21日 ]

标题: 缺失非随机数据的填补递归方程与稀疏模式支持

标题: Recursive Equations For Imputation Of Missing Not At Random Data With Sparse Pattern Support

Authors:Trung Phung, Kyle Reese, Ilya Shpitser, Rohit Bhattacharya
摘要: 在数据分析流程中处理缺失值的一种常见方法是通过软件包如MICE(Van Buuren和Groothuis-Oudshoorn,2011)和Amelia(Honaker等,2011)进行多重插补。这些包通常假设数据是随机缺失(MAR),并以一种允许即使某些缺失模式在数据中没有支持的情况下也能进行插补的方式对插补分布施加参数或平滑假设。这种假设在实践中是不现实的,并且会在进行此类插补后的任何分析中导致模型误指偏差。在本文中,我们提供了一个有原则的替代方案。具体来说,我们为图形模型中的完整数据定律提供了一个新的表征。该表征是构造性的,易于适应计算MAR和MNAR(非随机缺失)机制的插补分布,并能够处理某些缺失模式缺乏支持的情况。我们利用这一表征开发了一种新的插补算法——基于支持模式递归的多变量插补(MISPR),它通过类似多变量插补与链式方程(MICE)算法的吉布斯采样来实现,但在MAR和MNAR设置下是一致的,并且能够在不施加超出缺失数据模型本身已有假设的情况下处理没有支持的缺失数据模式。在模拟中,我们展示了当数据是MAR时,MISPR的结果与MICE相当,而当数据是MNAR时,结果更优且偏差更小。我们的表征以及基于此的插补算法是使有原则的缺失数据方法在实际应用中更加实用的一个步骤,在实际应用中,数据很可能是MNAR,并且维度足够高,以至于在现有样本量下会产生没有支持的缺失数据模式。
摘要: A common approach for handling missing values in data analysis pipelines is multiple imputation via software packages such as MICE (Van Buuren and Groothuis-Oudshoorn, 2011) and Amelia (Honaker et al., 2011). These packages typically assume the data are missing at random (MAR), and impose parametric or smoothing assumptions upon the imputing distributions in a way that allows imputation to proceed even if not all missingness patterns have support in the data. Such assumptions are unrealistic in practice, and induce model misspecification bias on any analysis performed after such imputation. In this paper, we provide a principled alternative. Specifically, we develop a new characterization for the full data law in graphical models of missing data. This characterization is constructive, is easily adapted for the calculation of imputation distributions for both MAR and MNAR (missing not at random) mechanisms, and is able to handle lack of support for certain patterns of missingness. We use this characterization to develop a new imputation algorithm -- Multivariate Imputation via Supported Pattern Recursion (MISPR) -- which uses Gibbs sampling, by analogy with the Multivariate Imputation with Chained Equations (MICE) algorithm, but which is consistent under both MAR and MNAR settings, and is able to handle missing data patterns with no support without imposing additional assumptions beyond those already imposed by the missing data model itself. In simulations, we show MISPR obtains comparable results to MICE when data are MAR, and superior, less biased results when data are MNAR. Our characterization and imputation algorithm based on it are a step towards making principled missing data methods more practical in applied settings, where the data are likely both MNAR and sufficiently high dimensional to yield missing data patterns with no support at available sample sizes.
评论: 45页
主题: 方法论 (stat.ME) ; 机器学习 (cs.LG)
引用方式: arXiv:2507.16107 [stat.ME]
  (或者 arXiv:2507.16107v1 [stat.ME] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.16107
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Trung Phung [查看电子邮件]
[v1] 星期一, 2025 年 7 月 21 日 23:18:36 UTC (57 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
stat.ME
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.LG
stat

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号