统计学 > 机器学习
[提交于 2025年6月2日
(此版本)
, 最新版本 2025年6月18日 (v2)
]
标题: 混合马尔可夫链中的近似最优聚类
标题: Near-Optimal Clustering in Mixture of Markov Chains
摘要: 我们研究了聚类问题,其中包含长度为$H$的$T$条轨迹,每条轨迹由有限状态空间大小为$S$的$K$个未知的遍历马尔可夫链之一生成。目标是根据它们各自的生成模型准确地对轨迹进行分组。首先,我们推导了一个依赖于实例的、高概率的聚类误差率下界,该下界由链的转移核之间的加权KL散度控制。然后,我们提出了一种新颖的两阶段聚类算法。在第一阶段,我们使用一种新的遍历马尔可夫链的可嵌入欧几里得空间方法进行谱聚类——这是一个独立有趣的贡献,它能够实现尖锐的集中结果。第二阶段通过基于似然性的重新分配来细化初始聚类。 我们的方法在条件$H = \tilde{\Omega}(\gamma_{\mathrm{ps}}^{-1} (S^2 \vee \pi_{\min}^{-1}))$和$TH = \tilde{\Omega}(\gamma_{\mathrm{ps}}^{-1} S^2 )$下,以高概率实现了接近最优的聚类误差,其中$\pi_{\min}$是跨$K$条链的状态最小平稳概率,$\gamma_{\mathrm{ps}}$是最小伪谱间隙。 如果不能达到最先进的保证(Kausik 等人,2023年),这些要求至少提供了可比的显著改进,并且此外,我们的算法提供了一个关键的实际优势:与现有方法不同,它不需要任何特定模型量的知识(例如,核之间的分离或访问概率)。 最后,我们讨论了上下界之间固有的差距,为这一聚类问题的独特结构提供了见解。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.