Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:2507.06785

帮助 | 高级搜索

统计学 > 方法论

arXiv:2507.06785 (stat)
[提交于 2025年7月9日 (v1) ,最后修订 2025年7月22日 (此版本, v2)]

标题: 基于贝叶斯自助法的高缺失率混合数据高斯Copula模型

标题: Bayesian Bootstrap based Gaussian Copula Model for Mixed Data with High Missing Rates

Authors:Seongmin Kim, Jeunghun Oh, Hungkuk Ko, Jeongmin Park, Jaeyong Lee
摘要: 缺失数据是医学、社会科学和自然科学等多个领域中的常见问题,并对准确的统计分析构成了重大挑战。 尽管已经提出了许多插补方法来解决这个问题,但其中许多方法未能充分捕捉变量之间的复杂依赖结构。 为了克服这一限制,引入了基于高斯copula框架的模型。 然而,大多数现有的基于copula的方法没有考虑边缘分布中的不确定性,这可能导致边缘估计偏差和性能下降,尤其是在高缺失率的情况下。 在本研究中,我们提出了一种基于贝叶斯自助法的高斯Copula模型(BBGC),该模型明确地将每个变量的边缘分布中的不确定性纳入考虑。 所提出的BBGC结合了高斯copula的灵活依赖建模能力,以及通过贝叶斯自助法对边缘累积分布函数(CDF)进行贝叶斯不确定性量化。 此外,通过引入有序变量建模方法,该模型被扩展以处理混合数据类型。 通过模拟研究和对来自UCI存储库的真实数据集的实验,我们证明所提出的BBGC在各种缺失率和机制(MCAR,MAR)下均优于现有的插补方法。 此外,与传统插补方法相比,所提出的模型在真实半导体制造过程数据上的表现更为优越。
摘要: Missing data is a common issue in various fields such as medicine, social sciences, and natural sciences, and it poses significant challenges for accurate statistical analysis. Although numerous imputation methods have been proposed to address this issue, many of them fail to adequately capture the complex dependency structure among variables. To overcome this limitation, models based on the Gaussian copula framework have been introduced. However, most existing copula-based approaches do not account for the uncertainty in the marginal distributions, which can lead to biased marginal estimates and degraded performance, especially under high missingness rates. In this study, we propose a Bayesian bootstrap-based Gaussian Copula model (BBGC) that explicitly incorporates uncertainty in the marginal distributions of each variable. The proposed BBGC combines the flexible dependency modeling capability of the Gaussian copula with the Bayesian uncertainty quantification of marginal cumulative distribution functions (CDFs) via the Bayesian bootstrap. Furthermore, it is extended to handle mixed data types by incorporating methods for ordinal variable modeling. Through simulation studies and experiments on real-world datasets from the UCI repository, we demonstrate that the proposed BBGC outperforms existing imputation methods across various missing rates and mechanisms (MCAR, MAR). Additionally, the proposed model shows superior performance on real semiconductor manufacturing process data compared to conventional imputation approaches.
评论: 29页,1图,4表
主题: 方法论 (stat.ME) ; 应用 (stat.AP)
引用方式: arXiv:2507.06785 [stat.ME]
  (或者 arXiv:2507.06785v2 [stat.ME] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.06785
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Seongmin Kim [查看电子邮件]
[v1] 星期三, 2025 年 7 月 9 日 12:19:00 UTC (105 KB)
[v2] 星期二, 2025 年 7 月 22 日 05:40:45 UTC (105 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
stat.AP
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
stat
stat.ME

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号