FP-Growth 频繁项集挖掘

FP-Tree算法

 

FPTree算法:在不生成候选项的情况下,完成Apriori算法的功能。

FP-Tree:就是上面的那棵树,是把事务数据表中的各个事务数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以NULL为根结点的树中,同时在每个结点处记录该结点出现的支持度。

条件模式基:包含FP-Tree中与后缀模式一起出现的前缀路径的集合。也就是同一个频繁项在PF树中的所有节点的祖先路径的集合。

条件树:将条件模式基按照FP-Tree的构造原则形成的一个新的FP-Tree。

 

FPTree算法的基本数据结构,包含一个一棵FP树和一个项头表,每个项通过一个结点链指向它在树中出现的位置。基本结构如下所示。需要注意的是项头表需要按照支持度递减排序,在FPTree中高支持度的节点只能是低支持度节点的祖先节点。

1、 构造项头表:扫描数据库一遍,得到频繁项的集合F和每个频繁项的支持度。把F按支持度递降排序,记为L。

2、 构造原始FPTree:把数据库中每个事物的频繁项按照L中的顺序进行重排。并按照重排之后的顺序把每个事物的每个频繁项插入以null为根的 FPTree中。如果插入时频繁项节点已经存在了,则把该频繁项节点支持度加1;如果该节点不存在,则创建支持度为1的节点,并把该节点链接到项头表中。

3、 调用FP-growth(Tree,null)开始进行挖掘。伪代码如下:

procedure FP_growth(Tree, a)

if Tree 含单个路径P then{

         for 路径P中结点的每个组合(记作b

         产生模式b U a,其支持度support = b 中结点的最小支持度;

} else {

         for each a iTree的头部(按照支持度由低到高顺序进行扫描){

                  产生一个模式b = a i U a,其支持度support = a i .support

                  构造b的条件模式基,然后构造b的条件FP-树Treeb;

                  if Treeb 不为空 then

                            调用 FP_growth (Treeb, b);

           }

}

FP-growth函数的输入:tree是指原始的FPTree或者是某个模式的条件FPTree,a是指模式的后缀(在第一次调用时a=NULL,在之后的递归调用中a是模式后缀)

FP-growth函数的输出:在递归调用过程中输出所有的模式及其支持度。每一次调用FP_growth输出结果的模式中一定包含FP_growth函数输入的模式后缀。

我们来模拟一下FP-growth的执行过程。

1、 在FP-growth递归调用的第一层,模式前后a=NULL,得到的其实就是频繁1-项集。

2、 对每一个频繁1-项,进行递归调用FP-growth()获得多元频繁项集。

 

posted @ 2015-06-08 22:36  Loyal_1884  阅读(249)  评论(0编辑  收藏  举报