[学习笔记]关联挖掘和序列挖掘 (Association Rule mining, Sequential patterns mining)

这篇学习笔记摘自张明卫08.

数据项集I={i1,i2,...,im}
A是数据项集I的子集
事务T: 对应于一个数据项子集.如果这个数据项子集包含A, 则称事务T包含A.
事务集D

数据项集A的支持度sup是指D中事务包含A的百分比,
    support(A) = P(A) = |A(T)|/|D|, 其中A(T)为包含A的事务集合, |A(T)|称为支持度计数.
频繁项集: support(A) >= min_sup(最小支持度), 则A为频繁项集.

关联规则A=>B: 若A, B是项集,且A∩B为空
项目集A∪B的支持度称为关联规则A=>B的支持度, 即 support(A=>B) = support(A∪B)
关联规则A=>B的置信度c: D中含有A中的事务的c%, 也含有B. 即confidence(A=>B)=support(A∪B)/support(B)
强规则: 同时满足最小支持度阀值(min_sup)和最小置信度(min_conf)的规则
关联挖掘: 在大型数据库中发现强关联规则.

------------------------------------------------------------

序列s = <s1,s2,...,sn>: 若干项集的有序列表.其中sj为项集或元素.
元素sj=(x1,x2,...xk): 由不同的项组成.  元素之间是有序的, 但是元素内的项是无序的.
序列的长度: 序列包含项的个数. 长度为l的序列称为l-序列.
子序列α∠β超序列:
序列数据库D
序列α在序列数据库D中的支持度: 数据库中包含α的元组数占总数的百分比.
频繁序列模式: 序列s的支持度>=min_sup
序列挖掘: 给定一个序列数据库和一个用户定义的最小支持度min_sup, 在序列数据库中找出所有频繁序列.
posted @ 2009-04-16 22:41  玉泉老博  阅读(1259)  评论(0编辑  收藏  举报
Free counter and web stats