关联规则之Apriori
1、关联规则原理
1、关联规则概述
关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。
关联分析中的关系表现为两种形式:频繁项集——经常同时出现的一些元素的集合;关联规则——表示物品或属性之间可能存在的强关系。
2、常见应用案例
①沃尔玛超市的尿布与啤酒;
②百度文库推荐相关文档;
③淘宝推荐相关书籍
3、相关指标
和关联规则相关的指标有两个,分别为置信度和支持度。通常会设置置信度和支持度的阈值,当分析得到的关联关系达到两者的阈值时,这样的关联规则被认为是有趣的。
1、置信度
置信度用来度量每个关联规则在前提条件下结果发生的可能性。对于的关联规则,其置信度计算公式为:
N(A)表示含A的样本数,N(A,B)表示既含A又含B的样本数。
通过置信度,我们可以知道结果是个例还是具有普遍性。
2、支持度
支持度用来度量包含了关联分析中出现的属性值的样本数占整个数据集的百分比,计算方法如下:
其中N(I)表示数据集I的样本数。
2、Apriori算法
1)生成条目集,条目是符合一定支持度要求的“属性值-值”的组合。
2)使用生成的条目集创建一组关联规则。
作者:萌萌的美男子
出处:http://www.cnblogs.com/ivan-count/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
出处:http://www.cnblogs.com/ivan-count/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。