Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:2205.07253

帮助 | 高级搜索

统计学 > 方法论

arXiv:2205.07253 (stat)
[提交于 2022年5月15日 ]

标题: 评估独立性和条件独立性度量

标题: Evaluating Independence and Conditional Independence Measures

Authors:Jian Ma
摘要: 独立性和条件独立性(CI)是概率论和统计学中的两个基本概念,可以用于解决许多统计推断的核心问题。 有许多现有的独立性和CI度量是从不同的原理和概念中定义的。 在本文中,回顾了16种独立性度量和16种CI度量,并用模拟数据和真实数据进行了评估。 对于独立性度量,从正态分布、正态和阿基米德Copula函数生成了八组模拟数据,以在双变量或多元、线性或非线性设置中比较这些度量。 两个UCI数据集,包括心脏病数据和葡萄酒质量数据,被用来测试独立性度量在真实条件下的功效。 对于CI度量,使用了两组正态分布和Gumbel Copula的模拟数据以及一个真实数据(北京空气质量数据)来在预设的线性或非线性设置和真实场景中测试CI度量。 从实验结果来看,大多数度量在模拟数据上表现良好,展示了模拟的正确单调性。 然而,在更复杂的真实数据上,独立性和CI度量分别表现出差异,只有少数度量可以根据领域知识被认为表现良好。 我们还发现,这些度量倾向于根据它们在每个设置中以及总体行为的相似性分成不同的组。 根据实验,我们推荐CE作为独立性和CI度量的良好选择。 这也是由于其严格的无分布定义和一致的非参数估计器。
摘要: Independence and Conditional Independence (CI) are two fundamental concepts in probability and statistics, which can be applied to solve many central problems of statistical inference. There are many existing independence and CI measures defined from diverse principles and concepts. In this paper, the 16 independence measures and 16 CI measures were reviewed and then evaluated with simulated and real data. For the independence measures, eight simulated data were generating from normal distribution, normal and Archimedean copula functions to compare the measures in bivariate or multivariate, linear or nonlinear settings. Two UCI dataset, including the heart disease data and the wine quality data, were used to test the power of the independence measures in real conditions. For the CI measures, two simulated data with normal distribution and Gumbel copula, and one real data (the Beijing air data) were utilized to test the CI measures in prespecified linear or nonlinear setting and real scenario. From the experimental results, we found that most of the measures work well on the simulated data by presenting the right monotonicity of the simulations. However, the independence and CI measures were differentiated on much complex real data respectively and only a few can be considered as working well with reference to domain knowledge. We also found that the measures tend to be separated into groups based on the similarity of the behaviors of them in each setting and in general. According to the experiments, we recommend CE as a good choice for both independence and CI measure. This is also due to its rigorous distribution-free definition and consistent nonparametric estimator.
评论: 53页,26图,3表
主题: 方法论 (stat.ME) ; 机器学习 (cs.LG)
引用方式: arXiv:2205.07253 [stat.ME]
  (或者 arXiv:2205.07253v1 [stat.ME] 对于此版本)
  https://doi.org/10.48550/arXiv.2205.07253
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Jian Ma [查看电子邮件]
[v1] 星期日, 2022 年 5 月 15 日 10:38:41 UTC (399 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
stat.ME
< 上一篇   |   下一篇 >
新的 | 最近的 | 2022-05
切换浏览方式为:
cs
cs.LG
stat

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号