数据挖掘概念与技术(韩家伟)阅读笔记6--数据规约
1.数据规约的意义:
对海量的而数据进行分析和挖掘,需要大量的时间,使得这种分析可能不现实或不可行。数据规约对数据集的规约表示进行分析,这样需要分析的数据少得多,但并不影响数据挖掘的效果。
2.数据规约的策略
a.数据立方体聚集:类似于前面的数据聚集,对数据立方体进行上卷和下钻,在不同抽象层次进行分析(例:年,季度,月)。
定义;基本方体:最低抽象层次;顶点方体;最高抽象方体。每个较高抽象层次进一步减少数据的规模。
b.属性子集选择:检测并删除不想关,弱相关或冗余的属性和维。基本方法:逐步向前选择:由空的初始规约集,逐步添加好的属性到规约中。
逐步向后删除:逐步删除整个属性集中最差的。
向前选择和向后删除结合:
决策树归纳:每个非叶子节点表示一个属性的选择,每个叶子节点表示一个类预测。最终的结果是将属性按照需求划分为好的或坏的。
c.维度规约:使用数据编码和变换,规约数据。
方法:a.小波变换 原理:通过小波变换将原始数据向量X={xi,x2...}(对应元祖各个属性),变换成不同数值的数值小波系数向量Y。然后按照某种规则截取Y,仅保存一部分最强的小波系数。
b.主成分分析(PCA)
计算方法:计算协方差矩阵:对于n维数据{x,y,z},则协方差矩阵为
其中:协方差计算方式为:
然后求取协方差矩阵的特征值和特征向量。根据一定放入规则选取特征值较大的特征向量组成模式矢量。然后经过变换的到将维后的数据。
d.数值规约
(1)回归或对数线性模型
多元线性回归:
原理:通过模型建立属性间的关系,并通过回归方程等进行拟合,求取相关的参数,这样在存取的时候只需要存取相关的模型参数,而不用存取实际数据,从而减少数据量。
对数线性模型:
原理:主要针对于近似离散的多维数据进行概率分布。详解见后面。
(2)直方图
用一个连续的值域代替一个值作为一个桶的。
桶和属性的划分:
a.等宽。每个桶的宽度区间是一样的。
b.等频。每个桶的高度是一样的。
c.V最优。在桶的个数一定的条件下,具有最小方差的直方图即为V最优直方图。其中,直方图的方差是每个桶代表的原来值的加权和,其中权等于桶中值的个数。
d.MaxDiff。最大化差异度量。考虑每个相邻值(相邻值)之间的差,每个桶的属性值边界是x-1个最大差的对。x为用户指定的桶数。
(3)聚类
对数据对象进行划分成群或簇,规则是是每个簇内数据对象尽量相似,簇之间的对象尽量相异。然后使用簇来替换原始的簇内数据对象。
(4)抽样
a.s个样本无放回简单随机抽样
b.s个样本有放回简单随机抽样。
c.聚类抽样。先将N个元祖分成M个互补相交的簇,然后对其进行S个簇的简单随机抽样。
d.分层抽样。实际相当于先对原始数据进行直方图划分,然后对每一个桶进行抽样,在综合起来。
抽样规约的优点:得到样本的花费正比于样本集的大小,而不是总数据集的大小。抽样的复杂度仅随数据的维数成线性增长,其他的更多随数据的维数成指数增长。