数据挖掘之关联分析三（规则的产生）

规则产生

忽略那些前件和后件为空的规则，每个频繁k项集能够产生\(2(2^k-1)\)个关联规则。将频繁项集Y划分为两个非空子集X和Y-X，使得\(X \to Y-X\)能满足置信度阈值，就可以得到满足条件的规则。
在计算规则的置信度时并不需要再次扫描事务数据集，因为产生规则的频繁项集和它们的子集也都是频繁项集，我们在提取频繁项集时，已经计算过它们的支持度计数，因而不需要再扫描所有的数据集。

基于置信度的剪枝

置信度不像支持度那样具有任何单调性。但是具有以下定理
定理：如果规则\(X \to Y-X\)不满足置信度阈值，则形如$ X' \to Y-X'$的规则也一定不满足置信度阈值，其中X'是X的子集。X'的支持度计数根据置信度计算公式可推理得到

Apriori算法中规则的产生

Apriori算法使用一种逐层方法来产生关联规则，其中层数对应于规则的构建中的项数。初始提取规则后件只有一个项的所有高置信度规则，然后使用这些规则来产生新的候选规则。

如果$ {acd} \to {b} \(和\) {abd} \to {c} \(是两个高置信度的规则，则通过合并两个规则的后件产生候选规则，如果格中的任意结点置信度较低，则根据定理应该剪去该枝，假设\) {bcd} \to a $具有较低的置信度，则根据定理的条件剪去左右子集的枝。

数据挖掘之关联分析一（基本概念）
数据挖掘之关联分析二（频繁项集的产生）
数据挖掘之关联分析三（规则的产生）
数据挖掘之关联分析四（连续属性处理）
数据挖掘之关联分析五（序列模式）
数据挖掘之关联分析六（子图模式）
数据挖掘之关联分析七（非频繁模式）

posted @ 2015-08-18 22:20 Beavers 阅读(5912) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区，博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】博客园社区专享云产品让利特惠，阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步