数据挖掘概念与技术(韩家伟)阅读笔记7--数据离散化和概念分层的产生
1.数据离散化和概念分层的原理和目的
通过将属性值域划分为区间,用区间标记代替实际的数值,用来减少给定连续属性值的个数。
2.离散化技术分类
例如:自顶向下:首先找出一个或几个点作为分裂点来对真个属性空间进行划分,然后再在结果区间上递归重复该过程。
自底向上:首相将所有的连续之看做分裂点,然后合并相近的属性区间,减少分裂点,然后递归的调用该过程。
3.数值数据的离散化和概念分层的产生方法
a.分箱。基于箱的指定个数,自顶向下的分裂技术。概念与前面的一样。
b.直方图分析。同前面所述直方图的意义。
c.基于熵的离散化。是一种监督的,自顶向下的分裂技术。
该方法原理:选择属性A中具有最小熵的值作为分裂点,并递归的划分结果区间,直到所有候选分类点上的最小信息需求(基于熵的某个公式)小于某个阈值或者结果区间的个数大于某个阈值。其中属性A为D的类标号属性。即:基于熵的离散化使用元祖的类标号信息,类标号属性提供每个元祖的类信息。
注:这里的熵指信息熵。是对不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。根据熵的特性,我们可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响越大。
d.基于X2分布的区间合并。
该方法原理:使用类信息,采用自底向上的策略,递归的合并相似的近邻区间,终止条件为:所有相邻区间对X2小于指定额阈值。计算近邻区间相似度的方法为:XXXXX.类似于前面所述的数据集成中卡方检验。适用对象:区间离散化的属性。
其中,数据相依表表示为:表有两列表示两个近邻区间,M行代表M个类分区。Oij表示第i个区间里类j的元祖个数,Eij=(区间i中元祖的个数)*(类j中元祖的个数)/数据与与元祖的总数。
e.聚类分析
f.根据直观划分离散化。为了使所划分的区间更加自然,规整(例如不出现大量的小数,整数位除最高位外全部为0)。
规则:3-4-5规则。根据最高有效位的取值范围,将区间划分为相对等宽的几个3,4,或5个区间。
如果最高有效位包含3,7(2,3,2),6,9个不同的值,则划分为三个区间;如果包含2,4,8个不同的值,则划分为4个区间;如果包含1,5,10个不同的值,则划分为5个等宽的区间。
步骤:
1.根据信息的最大max最小值min确定所需考虑的最低low(第5个百分位数)和最高high值(第95个百分位数)。
2.根据low,high确定最高有效位的位(个位,十位,百分位。。。。),则令msd=1,10,100。。。。。然后将low,higi向下和向上取值(使区间能够包含low,high范围),得到新的low和high。
3.计算最高有效位取值的不同个数=(high-low)/msd.并根据上面的规则确定划分区间。
4.向上向下兼容。如果min>low,则使low=min,否则创建新区间(min,low],在high处同样使用此方法。
5.可以递归的使用此方法对每一个结果区间进行划分操作。
4.分类数据的概念分层产生。
a.分类数据是离散数据,具有有限个值,值之间无序。