统计学 > 机器学习
[提交于 2014年2月6日
(此版本)
, 最新版本 2015年3月13日 (v3)
]
标题: 在具有不断增加的聚类数和子矩阵的Planted问题和子矩阵定位中的统计-计算权衡
标题: Statistical-Computational Tradeoffs in Planted Problems and Submatrix Localization with a Growing Number of Clusters and Submatrices
摘要: 我们考虑两个密切相关的问题:已植结构聚类和次矩阵定位。 已植结构聚类模型假设图是从某些未知聚类生成的,通过根据节点的聚类成员关系随机放置边来构建;任务是在给定图的情况下恢复这些聚类。 特殊情况包括经典的已植团问题、已植最密子图问题、已植划分问题和已植着色问题。 在次矩阵定位问题(也称为双聚类)中,目标是在一个大的随机矩阵内定位具有较高均值的隐藏次矩阵。 特别感兴趣的是允许聚类/次矩阵的数量随问题规模无界增长的情况。 我们研究了这两个问题的统计学和计算学方面,并证明了以下内容。 模型参数的空间可以被划分为四个互不相交的区域,对应于统计复杂性和计算复杂性的递减:(1)“不可能”区域,在此区域内所有算法都失败;(2)“困难”区域,在此区域内指数时间的最大似然估计(MLE)成功;(3)“简单”区域,在此区域内多项式时间的凸化MLE成功;(4)“容易”区域,在此区域内简单的计数/阈值处理程序成功。 此外,我们表明每个算法在前一个更难的区域中都证明会失败。 我们的定理建立了这两个问题的第一个最小最大恢复结果,且提供了多项式时间算法所能达到的最佳保证。 这些结果展示了统计学和计算学考量之间的权衡。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.