Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:1507.00181v2

帮助 | 高级搜索

统计学 > 计算

arXiv:1507.00181v2 (stat)
[提交于 2015年7月1日 (v1) ,最后修订 2015年7月8日 (此版本, v2)]

标题: 使用贝叶斯模型平均的贝叶斯增强回归树

标题: Bayesian Additive Regression Trees using Bayesian Model Averaging

Authors:Belinda Hernández, Adrian E. Raftery, Stephen R. Pennington, Andrew C. Parnell
摘要: 贝叶斯增强回归树(Bayesian Additive Regression Trees, BART)是一种统计学的树模型求和方法。 它可以被视为机器学习树集成方法的贝叶斯版本,其中单个树是基础学习器。 然而,对于变量数量 $p$ 较大的数据集(例如 $p>5,000$),该算法在计算上可能变得过于昂贵。 另一种在高维数据中流行的算法是随机森林,这是一种通过贪心搜索最佳分割点来生成树的机器学习算法。 但是,由于它不是一个统计模型,因此无法产生概率估计或预测。 我们提出了一种名为BART-BMA的BART替代算法,该算法使用贝叶斯模型平均法和贪心搜索算法生成一个比BART更高效的模型,适用于具有大 $p$ 的数据集。 BART-BMA结合了BART和随机森林的元素,提供了一种基于模型的算法,可以处理高维数据。 我们发现,BART-BMA可以在标准笔记本电脑上以合理的时间运行,在生物信息学的许多领域中常见的“小 $n$ 大 $p$”场景中。 我们通过模拟数据以及来自两个真实蛋白质组实验的数据展示这种方法;一个是区分心血管疾病患者与对照组,另一个是分类侵袭性与非侵袭性前列腺癌。 我们将结果与主要竞争对手进行了比较。 用于运行BART-BMA的开源代码用R和Rcpp编写,可在以下地址找到:https://github.com/BelindaHernandez/BART-BMA.git
摘要: Bayesian Additive Regression Trees (BART) is a statistical sum of trees model. It can be considered a Bayesian version of machine learning tree ensemble methods where the individual trees are the base learners. However for data sets where the number of variables $p$ is large (e.g. $p>5,000$) the algorithm can become prohibitively expensive, computationally. Another method which is popular for high dimensional data is random forests, a machine learning algorithm which grows trees using a greedy search for the best split points. However, as it is not a statistical model, it cannot produce probabilistic estimates or predictions. We propose an alternative algorithm for BART called BART-BMA, which uses Bayesian Model Averaging and a greedy search algorithm to produce a model which is much more efficient than BART for datasets with large $p$. BART-BMA incorporates elements of both BART and random forests to offer a model-based algorithm which can deal with high-dimensional data. We have found that BART-BMA can be run in a reasonable time on a standard laptop for the "small $n$ large $p$" scenario which is common in many areas of bioinformatics. We showcase this method using simulated data and data from two real proteomic experiments; one to distinguish between patients with cardiovascular disease and controls and another to classify agressive from non-agressive prostate cancer. We compare our results to their main competitors. Open source code written in R and Rcpp to run BART-BMA can be found at: https://github.com/BelindaHernandez/BART-BMA.git
主题: 计算 (stat.CO) ; 方法论 (stat.ME)
引用方式: arXiv:1507.00181 [stat.CO]
  (或者 arXiv:1507.00181v2 [stat.CO] 对于此版本)
  https://doi.org/10.48550/arXiv.1507.00181
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Belinda Hernandez [查看电子邮件]
[v1] 星期三, 2015 年 7 月 1 日 10:58:46 UTC (152 KB)
[v2] 星期三, 2015 年 7 月 8 日 14:08:27 UTC (152 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
stat.CO
< 上一篇   |   下一篇 >
新的 | 最近的 | 2015-07
切换浏览方式为:
stat
stat.ME

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号