摘要:
Apriori 算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Growth 算法采用了一些技巧,无论多少数据,只需要扫描两次数据集即可。 FP Tree数据结构 为了减少 I/O 次数,FP Tree 算法引入了一些数据结构来临时存储数据。这个数据结构包括三部分,如下图所示: 1 阅读全文
摘要:
Apriori 算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。 频繁项集的评估标准 什么样的数据才是频繁项集呢?一起出现次数多的数据集就是频繁项集吗!的确,这也没有说错,但是有两个问题: 1)当数据量非常大的时候,我们没法直接 阅读全文