关联规则之Aprior算法(购物篮分析)

0.支持度与置信度

《mahout实战》与《机器学习实战》一起该买的记录数占所有商品记录总数的比例——支持度(整体)

买了《mahout实战》与《机器学习实战》一起该买的记录数占所有购买《mahout实战》记录数的比例——置信度(局部)

支持度、置信度越大，商品出现一起购买的次数就越多，可信度就越大。

支持度：在所有的商品记录中有2%量是购买《mahout实战》与《机器学习实战》

置信度：买《mahout实战》的顾客中有60%的顾客购买了《机器学习实战》

1.啤酒与尿布

如何寻找？

在历史购物记录中，一些商品总是在一起购买。但人看上去不是那么的直观的，而是隐蔽的。让计算机做这事，设计算法让计算机自动去找，找到这样的模式(规律)。

目标:寻找那些总是一起出现商品。

mahout实战—>机器学习实战

《mahout实战》与《机器学习实战》一起该买的记录数占所有商品记录总数的比例——支持度(整体)

买了《mahout实战》与《机器学习实战》一起该买的记录数占所有购买《mahout实战》记录数的比例——置信度(局部)

需要达到一定的阈值

2.明确问题

1.要找总是在一起出现的商品组合

2.提出衡量标准支持度、置信度（达到一定的阈值）

3.给出支持度、置信度直观计算方法

4.在计算方法中起决定因素的是频繁项集

5.由频繁项集轻松找到强关联规则

如果你面对庞大的数据你怎么做？

找关联规则首先要找频繁项集

步骤：

a.找出所有频繁项集；这个项集出现的次数至少与要求的最小计数一样。

如在100次购买记录中，至少一起出现30次。

b.由频繁项集产生强关联规则；这些关联股则满足最小支持度与最小置信度。

3. Apriori算法

先验性质：频繁项集的所有非空子集也一定是频繁的。

逆否命题：若一个项集是非频繁的，则它的任何超级也是非频繁的。

如果计算机处理步骤：

snake 之 evolve

挑战

多次数据库扫描

巨大数量的候补项集

频繁的支持度计算

改善Apriori：基本思想

减少扫描数据库的次数

减少候选项集的数量

简化候选项集的支持度计算