apriori剪枝

l如果一个项集是非频繁的,则它的所有超集也一定是非频繁的:
这种基于支持度度量修剪指数搜索空间的策略称为基于支持度的剪枝support-based pruning
这种剪枝策略依赖于支持度度量的一个关键性质,即一个项集的支持度决不会超过它的子集的支持度。这个性质也称为支持度度量的反单调性anti-monotone)。





l扫描一次数据集,确定每个项的支持度计数。丢弃非频繁项,而将频繁项按照支持度的递减排序
l算法第二次扫描数据集,构建FP树。读入第一个事务{ab}之后,创建标记为ab的结点。然后形成null->a->b路径,对该事务编码。该路径上的所有结点的频度计数为1.
l读入第二个事务{bcd}之后,为项bcd创建新的结点集。然后,连接结点null->b->c->d,形成一条代表该事务的路径。该路径上的每个结点的频度计数也等于1.尽管前两个事务具有一个共同项b,但是它们的路径不相交,因为这两个事务没有共同的前缀。







posted @ 2015-09-08 14:25  iAthena  阅读(1402)  评论(0编辑  收藏  举报