计算机科学 > 机器学习
[提交于 2021年8月17日
]
标题: 统计上接近最优的假设选择
标题: Statistically Near-Optimal Hypothesis Selection
摘要: 假设选择是一个基本的分布学习问题,其中给定一个比较类$Q=\{q_1,\ldots, q_n\}$的分布,以及对一个未知目标分布$p$的抽样访问,目标是输出一个分布$q$,使得$\mathsf{TV}(p,q)$与$opt$接近,其中$opt = \min_i\{\mathsf{TV}(p,q_i)\}$和$\mathsf{TV}(\cdot, \cdot)$表示总变分距离。 尽管这个问题自19世纪以来就已经被研究,但其在基本资源(如样本数量和近似保证)方面的复杂性仍未解决(例如,在Devroye和Lugosi `00的迷人著作中进行了讨论)。 这与其他(更年轻的)学习设置形成了鲜明对比,例如PAC学习,这些复杂性已经得到了很好的理解。 我们为假设选择问题推导出一个最优的$2$-近似学习策略,输出$q$使得$\mathsf{TV}(p,q) \leq2 \cdot opt + \eps$,具有几乎最优的样本复杂度~$\tilde O(\log n/\epsilon^2)$。 这是第一个同时达到最佳近似因子和样本复杂度的算法:之前,Bousquet、Kane 和 Moran(COLT `19)提出了一种学习者,实现了最优的$2$-近似,但样本复杂度为$\tilde O(\sqrt{n}/\epsilon^{2.5})$,这要差得多;而 Yatracos~(Annals of Statistics `85) 提出了一种具有最优样本复杂度$O(\log n /\epsilon^2)$的学习者,但近似因子为$3$,这不是最优的。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.