挖掘频繁模式、关联和相关

前言

  • 如何从大量的事务的或关系的数据中发现关联规则?
  • 如何挖掘多层和多维空间中的关联规则?
  • 什么样的关联规则是最有趣的?
  • 如何帮助或指导挖掘过程发现有趣的关联或相关?
  • 如何利用用户选择的参数或约束加快挖掘过程?

 

规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量.它们分别反映所发现的规则的有用性和确定性.

I = {I1, I2, ..., Im}是项的集合.设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得TI.每一个事务有一个标识符,称作TID.设A是一个项集,事务T包含A当且仅当AT.关联规则是形如A => B的蕴含式,其中AIBI,并且AB=.规则A => B在事务集D中成立,具有支持度s,其中s是D中事务包含AB(即集合AB的并或AB二者)的百分比.它是概率P(AB).规则A => B在事务集D中具有置信度c,其中c是D中包含A的事务同时也包含B的百分比.这是条件概率P(B|A).即

     support(A => B) = P(AB)

confidence(A => B) = P(B|A)

同时满足最小支持度阀值(min_sup)和最小置信度阀值(min_conf)的规则称作强规则.为方便计算,我们用0~100%之间的值,而不是用0~1.0之间的值表示支持度和置信度.

posted @ 2015-08-24 17:54  yosg  阅读(291)  评论(0编辑  收藏  举报