数据分析——关联分析

关联分析:

构造一个关联系数矩阵,两个属性的值介于-1到1之间。

大于0,两者为正关联,<0,两者为负关联。  0 无关联,接近1或-1是比较强的关联。

关联规则:

寻找数据集内的属性之间存在的频繁关联,前提--->结论

举例子:

确定哪些产品最常被一起购买。

有这么一波人买早点,买糕点的有4个,买牛奶的是7个,其中:3个人同时购买牛奶和糕点,

则置信度:糕点->牛奶 3/4 

     牛奶->糕点 3/7

置信度是出现某些物品时,另外一个物品出现的概率。

支持度:3/10  (糕点,牛奶)

支持度是指A和B同时出现的概率。

我们寻找的是置信度高和支持度高的关联规则。

常用算法一:

Apriori算法,1.将项集连接构成候选集,2.去掉非频繁集合

FPgrowth算法,1将数据集中事务映射到一棵树Fp-tree上面,2从树上挖掘频繁项集

 

posted @ 2020-08-06 16:23  猫七的blog  阅读(604)  评论(0编辑  收藏  举报