统计学 > 方法论
[提交于 2025年7月9日
(v1)
,最后修订 2025年7月22日 (此版本, v2)]
标题: 基于贝叶斯自助法的高缺失率混合数据高斯Copula模型
标题: Bayesian Bootstrap based Gaussian Copula Model for Mixed Data with High Missing Rates
摘要: 缺失数据是医学、社会科学和自然科学等多个领域中的常见问题,并对准确的统计分析构成了重大挑战。 尽管已经提出了许多插补方法来解决这个问题,但其中许多方法未能充分捕捉变量之间的复杂依赖结构。 为了克服这一限制,引入了基于高斯copula框架的模型。 然而,大多数现有的基于copula的方法没有考虑边缘分布中的不确定性,这可能导致边缘估计偏差和性能下降,尤其是在高缺失率的情况下。 在本研究中,我们提出了一种基于贝叶斯自助法的高斯Copula模型(BBGC),该模型明确地将每个变量的边缘分布中的不确定性纳入考虑。 所提出的BBGC结合了高斯copula的灵活依赖建模能力,以及通过贝叶斯自助法对边缘累积分布函数(CDF)进行贝叶斯不确定性量化。 此外,通过引入有序变量建模方法,该模型被扩展以处理混合数据类型。 通过模拟研究和对来自UCI存储库的真实数据集的实验,我们证明所提出的BBGC在各种缺失率和机制(MCAR,MAR)下均优于现有的插补方法。 此外,与传统插补方法相比,所提出的模型在真实半导体制造过程数据上的表现更为优越。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.