挖掘频繁模式、关联和相关
前言
- 如何从大量的事务的或关系的数据中发现关联规则?
- 如何挖掘多层和多维空间中的关联规则?
- 什么样的关联规则是最有趣的?
- 如何帮助或指导挖掘过程发现有趣的关联或相关?
- 如何利用用户选择的参数或约束加快挖掘过程?
规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量.它们分别反映所发现的规则的有用性和确定性.
设 I = {I1, I2, ..., Im}是项的集合.设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得T⊆I.每一个事务有一个标识符,称作TID.设A是一个项集,事务T包含A当且仅当A⊆T.关联规则是形如A => B的蕴含式,其中A⊂I,B⊂I,并且A∩B=∅.规则A => B在事务集D中成立,具有支持度s,其中s是D中事务包含A∪B(即集合A和B的并或A和B二者)的百分比.它是概率P(A∪B).规则A => B在事务集D中具有置信度c,其中c是D中包含A的事务同时也包含B的百分比.这是条件概率P(B|A).即
support(A => B) = P(A∪B)
confidence(A => B) = P(B|A)
同时满足最小支持度阀值(min_sup)和最小置信度阀值(min_conf)的规则称作强规则.为方便计算,我们用0~100%之间的值,而不是用0~1.0之间的值表示支持度和置信度.