统计学 > 方法论
[提交于 2008年12月8日
]
标题: 数据填补技术的比较及其影响
标题: Comparison of Data Imputation Techniques and their Impact
摘要: 调查或数据库中的缺失和不完整信息可以使用不同的统计和软计算技术进行插补。 本文全面比较了自关联神经网络(NN)、神经模糊(NF)系统以及上述方法与热deck插补的混合组合。 测试是在八类产前调查以及主成分分析(PCA)条件下进行的。 对于所有测试,神经网络的性能平均比神经模糊系统高出5.8%,而混合方法的准确性平均比单独使用NN或NF系统高出15.9%,但计算效率降低了50%。 通过多种统计检验对插补数据的全局影响进行了评估。 发现尽管插补的准确性很高,但插补数据的全局效应导致数据集之间的PCA关系发生变化。 插补数据集的标准差平均比实际数据集低36.7%,这可能导致结果的错误解释。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.