统计学 > 机器学习
[提交于 2014年2月6日
(v1)
,最后修订 2015年3月13日 (此版本, v3)]
标题: 在具有不断增加的聚类数和子矩阵的数量的植入问题和子矩阵定位中的统计计算权衡
标题: Statistical-Computational Tradeoffs in Planted Problems and Submatrix Localization with a Growing Number of Clusters and Submatrices
摘要: 我们考虑两个密切相关的两个问题:已植入的聚类问题和次矩阵定位问题。 已植入的聚类问题假设随机图是基于某些潜在的节点簇生成的;任务是在给定图的情况下恢复这些簇。 次矩阵定位问题涉及在一个大的实数值随机矩阵内部定位隐藏的均值升高的次矩阵。 特别感兴趣的是这样一个设定:允许簇/子矩阵的数量随问题规模无界增长。 这些公式涵盖了几个经典的模型,如已植入的团问题、已植入的最密集子图问题、已植入的划分问题、已植入的着色问题和随机块模型,这些模型广泛用于研究社区检测和聚类/双聚类。 对于这两个问题,我们表明模型参数(簇/子矩阵大小、簇密度和子矩阵均值)的空间可以被划分为四个互不相交的区域,对应于统计复杂性和计算复杂性的递减:(1)\emph{不可能}区域,在此区域内所有算法都失败;(2)\emph{硬}区域,在此区域内计算量大的最大似然估计(MLE)成功;(3)\emph{简单的}区域,在此区域内多项式时间凸化MLE成功;(4)\emph{简单}区域,在此区域内简单的计数/阈值处理成功。 此外,我们证明了每个这些算法在之前更难的区域中理论上都会失败。 我们的定理建立了渐近最优恢复界限,这个界限在常数上紧致,并且随着簇/子矩阵数量的增长而成立,同时为多项式时间算法提供了比已知更强的性能保证。 我们的研究表明了统计与计算考虑因素之间的权衡,并表明渐近最优恢复界限可能无法由多项式时间算法实现。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.