挖掘频繁模式、关联和相关

前言

如何从大量的事务的或关系的数据中发现关联规则？
如何挖掘多层和多维空间中的关联规则？
什么样的关联规则是最有趣的？
如何帮助或指导挖掘过程发现有趣的关联或相关？
如何利用用户选择的参数或约束加快挖掘过程？

规则的支持度（support）和置信度（confidence）是规则兴趣度的两种度量．它们分别反映所发现的规则的有用性和确定性．

设 I = {I₁, I₂, ..., I_m}是项的集合．设任务相关的数据D是数据库事务的集合，其中每个事务T是项的集合，使得T⊆I．每一个事务有一个标识符，称作TID．设A是一个项集，事务T包含A当且仅当A⊆T．关联规则是形如A => B的蕴含式，其中A⊂I，B⊂I，并且A∩B=∅．规则A => B在事务集D中成立，具有支持度s，其中s是D中事务包含A∪B（即集合A和B的并或A和B二者）的百分比．它是概率P(A∪B)．规则A => B在事务集D中具有置信度c，其中c是D中包含A的事务同时也包含B的百分比．这是条件概率P(B|A)．即

support(A => B) = P(A∪B)

confidence(A => B) = P(B|A)

同时满足最小支持度阀值（min_sup）和最小置信度阀值（min_conf）的规则称作强规则．为方便计算，我们用0~100%之间的值，而不是用0~1.0之间的值表示支持度和置信度．

posted @ 2015-08-24 17:54 yosg 阅读(303) 评论(0) 收藏举报

刷新页面返回顶部

挖掘频繁模式、关联和相关

公告