计算机科学 > 数据结构与算法
[提交于 2025年9月3日
]
标题: 假设选择:一个高概率的难题
标题: Hypothesis Selection: A High Probability Conundrum
摘要: 在假设选择问题中,我们给定一个有限的候选分布集合(假设)$\mathcal{H} = \{H_1, \ldots, H_n\}$,并且有来自一个未知分布$P$的样本。我们的目标是找到一个假设$H_i$,其与$P$的总变分距离与$\mathcal{H}$中最近的假设的距离相当。 如果最小距离是$\mathsf{OPT}$,我们旨在输出一个$H_i$,使得以至少$1-\delta$的概率,其与$P$的总变分距离至多为$C \cdot \mathsf{OPT} + \varepsilon$。 尽管经过数十年的研究,这个问题的关键方面仍然未解决,包括达到最优样本复杂度的算法的最优运行时间和 $C=3$的最佳可能近似因子。 之前最先进的结果[Aliakbarpour, Bun, Smith, NeurIPS 2024]提供了一个在$n$上几乎线性时间的算法,但对其他参数的依赖次优,运行时间为$\tilde{O}(n/(\delta^3\varepsilon^3))$时间。 我们将这个时间复杂度改进为$\tilde{O}(n/(\delta \varepsilon^2))$,显著减少了对置信度和误差参数的依赖。 此外,我们在三种替代设置中研究了假设选择,解决了或在若干先前工作中的开放问题上取得了进展。 (1) 我们确定了当限制输出假设的\textit{期望距离}时的最优近似因子,而不是其高概率性能。 (2) 假设提前知道\textit{$\mathsf{OPT}$是已知的}的数值,我们提出一种算法,得到$C=3$和运行时$\tilde{O}(n/\varepsilon^2)$,具有最优的样本复杂度,并在$n$中以高概率成功。 (3) 在观察样本之前允许在假设类$\mathcal{H}$上进行多项式\textit{预处理}步骤,我们提出一个具有$C=3$和次二次运行时间的算法,在$n$中以高概率成功。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.