计算机科学 > 数据结构与算法
[提交于 2025年11月3日
]
标题: 子树模式和应用
标题: Subtree Mode and Applications
摘要: 集合中值的众数(即集合中最常见的值)是一个关键的汇总统计量。因此,在一个值数组的给定范围内找到众数非常重要,构建一个解决这个问题的数据结构实际上是著名的范围众数问题。在本工作中,我们引入了子树众数(SM)问题,这是在叶色树中的类似问题,其中任务是计算给定节点的子树中叶节点的最常见颜色。SM受到文本分析和生物学等领域中多个应用的驱动,其中数据是分层的,因此可以表示为(叶色)树。我们的主要贡献是一个针对SM的时间最优算法,该算法在$N$节点树上以$O(N)$时间计算输入树每个节点的答案。我们进一步展示了如何将我们的解决方案适应于节点颜色树,或计算$k$最常见的颜色,在最优$O(N)$时间内,对于任何给定的$k=O(1)$。此外,我们证明了当输入是一个源色有向无环图而不是叶色树时,得到类似快速解决方案的可能性非常低。我们在包含最多73亿个节点的树的真实数据集上的实验表明,我们的算法比基线方法快至少一个数量级,并且更加节省空间。最后,我们展示了案例研究,说明了我们的方法在模式挖掘和序列到数据库搜索应用中的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.