计算机科学 > 机器学习
[提交于 2012年9月26日
]
标题: 贝叶斯混合模型用于频繁项目集发现
标题: Bayesian Mixture Models for Frequent Itemset Discovery
摘要: 在二进制事务数据挖掘中,传统的频繁项集挖掘常常产生难以直接解释的结果。 为了克服这个问题,通常使用概率模型来生成更紧凑和明确的结果,尽管会有一些准确性的损失。 近年来,贝叶斯统计被广泛应用于机器学习中概率模型的开发,这些方法有许多优点,包括能够避免过拟合。 在本文中,我们开发了两种具有狄利克雷分布先验和狄利克雷过程(DP)先验的贝叶斯混合模型,以改进之前为事务数据集挖掘开发的非贝叶斯混合模型。 我们使用两种方法实现了这两种混合模型的推断:一种是折叠吉布斯采样方案,另一种是变分近似算法。 在多个基准问题上的实验表明,这两种混合模型都比非贝叶斯混合模型表现更好。 变分算法是两种方法中较快的一种,而吉布斯采样方法则能获得更准确的结果。 狄利克雷过程混合模型可以自动增长到适当的复杂度以实现更好的近似。 一旦模型建立,查询和运行分析将非常快速(通常比Eclat快10倍,如我们在实验部分所示)。 然而,这些方法也显示混合模型低估了频繁项集的概率。 因此,这些模型具有更高的灵敏度但更低的特异性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.