Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:1810.09753

帮助 | 高级搜索

统计学 > 应用

arXiv:1810.09753 (stat)
[提交于 2018年10月23日 ]

标题: 大数据集的拟合优度检验

标题: Goodness-of-Fit Tests for Large Datasets

Authors:Taras Lazariv, Christoph Lehmann
摘要: 如今,在大数据领域中的数据分析通常与数据挖掘、描述性或探索性统计学相关,例如聚类分析、分类或回归分析。 除了这些技术之外,还有大量来自推断统计学的方法,这些方法在与大数据相关的背景下很少被考虑。 然而,推断方法对于大数据分析也是有用的,特别是用于量化不确定性。 本文将提供一些关于大数据领域中推断方法的方法论和技术问题的见解,以将大数据和推断统计学结合起来,尽管这会带来一些困难。 我们提出一种方法,可以在不假设模型的情况下进行拟合优度检验,并依赖于经验分布。 特别是,该方法能够利用大型数据集的信息。 因此,该方法基于明确的理论背景。 我们专注于广泛使用的柯尔莫哥洛夫-斯米尔诺夫检验,该检验用于统计学中的拟合优度检验。 我们的方法可以轻松并行化,这使其特别适用于分布式数据集,尤其是在计算集群上。 通过这一贡献,我们面向对技术及方法论背景感兴趣的受众,特别是在使用如Spark等大数据工具实现推断统计方法时。
摘要: Nowadays, data analysis in the world of Big Data is connected typically to data mining, descriptive or exploratory statistics, e.~g.\ cluster analysis, classification or regression analysis. Aside these techniques there is a huge area of methods from inferential statistics that are rarely considered in connection with Big Data. Nevertheless, inferential methods are also of use for Big Data analysis, especially for quantifying uncertainty. The article at hand will provide some insights to methodological and technical issues referring inferential methods in the Big Data area in order to bring together Big Data and inferential statistics, as it comes along with its difficulties. We present an approach that allows testing goodness-of-fit without model assumptions and relying on the empirical distribution. Especially, the method is able to utilize information from large datasets. Thereby, the approach is based on a clear theoretical background. We concentrate on the widely-used Kolmogorov-Smirnov test that is applied for testing goodness-of-fit in statistics. Our approach can be parallelized easily, which makes it applicable to distributed datasets particularly on a compute cluster. By this contribution, we turn to an audience that is interested in the technical and methodological backgrounds while implementing especially inferential statistical methods with Big Data tools as e. g. Spark.
主题: 应用 (stat.AP) ; 计算 (stat.CO)
引用方式: arXiv:1810.09753 [stat.AP]
  (或者 arXiv:1810.09753v1 [stat.AP] 对于此版本)
  https://doi.org/10.48550/arXiv.1810.09753
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Taras Lazariv [查看电子邮件]
[v1] 星期二, 2018 年 10 月 23 日 10:03:38 UTC (56 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
stat.AP
< 上一篇   |   下一篇 >
新的 | 最近的 | 2018-10
切换浏览方式为:
stat
stat.CO

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号