实现Apriori算法（数据挖掘经典关联算法）

一、算法描述

摘自http://baike.baidu.com/view/2230129.htm

首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。

（1） L1 = find_frequent_1-itemsets(D);

（2） for (k=2;Lk-1 ≠Φ ;k++) {

　　（3） Ck = apriori_gen(Lk-1 ,min_sup);

　　（4） for each transaction t ∈ D {//scan D for counts

　　（5） Ct = subset(Ck,t);//get the subsets of t that are candidates

　　（6） for each candidate c ∈ Ct

　　（7） c.count++;

　　（8） }

　　（9） Lk ={c ∈ Ck|c.count≥min_sup}

　　（10） }

　　（11） return L= ∪ k Lk;

二、主要步骤

1）统计出样本共有几个item

2） apriori算法主体

统计出长度为1个item的所有非频集（指支持度大于指定最小支持度的itemset）
从长度为2个item开始直到最大的长度

生成所有可能的候选集（根据长度）

剔除所有含有“长度减一非频集”的候选集

检查候选集的支持度，把频集加入结果当中，把非频集加入非频集的集合当中

返回结果

3）输出结果（所有真正的候选集）

三、关键变量描述

vector<vector<string>> sample; 记录所有的样本

vector<vector<int>> result 记录候选集的item的编号，对应的是items的下标

vector<string> items 记录所有的item

四、运行截图

样本

输出所有候选集（最小频率为3）

不知道是不是我理解错了，觉得这个算法很简单。。。Apriori算法最大的缺点就是产生的候选集太多。。。果然很多。。。。= =！

代码下载地址： https://files.cnblogs.com/sandywong/Apriori_by_sandy.rar

posted @ 2011-06-23 23:30 free_swallow 阅读(605) 评论(0) 收藏举报

刷新页面返回顶部

Sandy's Blog

实现Apriori算法（数据挖掘经典关联算法）

一、算法描述

二、主要步骤

三、关键变量描述

四、运行截图

公告