统计学 > 机器学习
[提交于 2025年6月2日
(v1)
,最后修订 2025年6月18日 (此版本, v2)]
标题: 马尔可夫链混合中的近似最优聚类
标题: Near-Optimal Clustering in Mixture of Markov Chains
摘要: 我们研究了如下问题:给定长度为$H$的$T$条轨迹,每条轨迹由大小为$S$的有限状态空间上的$K$个未知的遍历马尔可夫链之一生成,准确地根据其潜在生成模型对这些轨迹进行聚类。 首先,我们推导出一个依赖于实例的高概率下界,该下界由链的转移核之间的加权KL散度控制。 然后,我们提出了一种新颖的两阶段聚类算法。 在阶段 I 中,我们使用一种新的遍历马尔可夫链的可嵌入欧几里得空间方法进行谱聚类——这是一个独立有趣的贡献,它能够得到尖锐的集中结果。 阶段 II 通过基于似然性的重新分配步骤来细化初始聚类。 我们的方法以高概率实现了接近最优的聚类误差,在条件 $H = \tilde{\Omega}(\gamma_{\mathrm{ps}}^{-1} (S^2 \vee \pi_{\min}^{-1}))$ 和 $TH = \tilde{\Omega}(\gamma_{\mathrm{ps}}^{-1} S^2 )$ 下,其中 $\pi_{\min}$ 是跨越 $K$ 条链的任意状态的最小平稳概率,而 $\gamma_{\mathrm{ps}}$ 是最小伪谱间隙。 如果不能达到最先进的保证(Kausik 等人,2023年),这些要求至少可以提供相当的改进,并且更重要的是,我们的算法提供了关键的实际优势:与现有方法不同,它不需要事先了解特定模型的量(例如,核之间的分离或访问概率)。 最后,我们讨论了上下界之间的固有差距,提供了对该聚类问题独特结构的见解。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.