计算机科学 > 数据库
[提交于 2008年3月6日
]
标题: 新的关联规则的概率兴趣度量
标题: New probabilistic interest measures for association rules
摘要: 挖掘关联规则是发现事务数据库中有意义模式的重要技术。 已经提出了许多有趣的度量方法用于关联规则。 然而,这些度量方法未能考虑挖掘数据的概率特性。 在本文中,我们首先介绍一个简单的事务数据概率框架,该框架可用于在没有关联的情况下模拟事务数据。 我们使用此类数据和来自杂货店的实际数据库来探索置信度和提升度的行为,这两个是用于规则挖掘的流行兴趣度量。 结果表明,置信度受规则左侧项目频率的系统影响,而提升度在过滤事务数据中的随机噪声方面表现不佳。 基于我们开发的概率框架,我们提出了两种新的兴趣度量方法,超提升度和超置信度,可用于过滤或排序挖掘出的关联规则。 对于虚假规则有问题的应用,新度量方法表现出明显优于提升度的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.