统计学 > 方法论
[提交于 2025年7月15日
]
标题: 如何对插补方法进行排序?
标题: How to rank imputation methods?
摘要: 填补是一种处理缺失值广泛问题的有吸引力的工具。 因此,在过去十年中,研究和开发填补方法一直是活跃的研究领域。 面对一个填补任务和大量方法,如何找到最合适的填补方法? 尽管在不同情境下的模型选择,如预测,已经得到了很好的研究,但这个问题似乎没有受到太多关注。 在本文中,我们遵循填补评分(I-评分)的概念,并开发了一个新的、可靠且易于实现的评分,用于在不访问完整数据的情况下对给定数据集的缺失值填补进行排序。 在实践中,通常是通过人为地掩盖观测值,使用诸如均方根误差(RMSE)等度量来比较填补值与观测值。 我们讨论了如果不够谨慎,这种额外掩盖观测值的方法可能会产生误导,并且在MAR条件下通常无效。 然后,我们确定了一个新的缺失性假设,并开发了一个评分,该评分结合了合理的观测值掩盖与适当的评分规则。 因此,排序旨在找到最能复制数据分布的填补方法,从而找到适用于一系列下游任务的填补方法。 我们展示了该评分的适当性,并讨论了一个涉及能量评分的估计算法。 最后,我们在模拟数据示例以及一个下游任务中展示了新评分的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.