所以燃

Data Mining --- Preprocessing

1.数据描述:

均值mean(x)=1/n*Σxi,加权均值wieghted-mean(x)=Σwixi/Σwi;中值median;众数mode。经验公式:mean-mode=3*(mean-median)。1/4和3/4分位数;总体方差σ和样本方差s。

image

 

2.数据清理:

对缺失数据忽略/填充,对噪声数据进行平滑(装箱Binning,回归Regression,聚类Clustering)

a.等宽装箱(distance),等深装箱(frequency)

image

b.回归

image

c.聚类

image

 

3、数据转换(去量纲)

a.最小值-最大值标准化:

image

b.Z-score标准化:

image

c.小数点标准化:

 image

 

4.数据集成(相关分析、卡方检验)

a.相关性系数:值越大,相关性越大

image

b.卡方检验:值越大,相关可能性越大

image

image

image

 

5.数据归约

a.数据放聚集

image

b.维归约(特征选择):向前逐步选择(每次选最好的属性),向后逐步删除(每次删最差的属性),决策树归纳(由决策树选择属性)。

c.数据压缩(离散小波变换DWT,由平滑和平滑-差数据集重构数据)

*wavelet小波变换:适合高维数据

image

其中fai(t)是一个小波,等价描述(局部化):

image

image

一个单个小波函数fai(t)的平移与伸缩构成一个小波簇:

image

a为伸缩参数,b为平移参数,称fai(t)为母小波。定义小波变换为:

image

若满足其L2距离平方和有界,则称fai为基小波。

应用离散小波变换一般使用分层金字塔算法:

a.输入数据响亮的长度L为2的整数幂

b.变换涉及两个函数,第一个函数使数据平滑,第二个进行加权查分产生数据的细节特征

c.两个函数作用输入数据对,产生两个长度为L/2的数据集,分别代表输入数据低频(平滑)和高频内容。

d.两个函数递归地作用于前面循环得到的数据集,指导结果数据集的长度为2

e.由以上迭代得到的数据集中选择值,指定其为数据变换的小波系数

*主成分分析PCA:适合稀疏数据

进行特征值分解,并降序排列,保留特征值较大的特征向量作为主要成分来近似。

 

5.数值归约

a.回归和对数线性模型近似

b.直方图

c.聚类

d.选样:简单选样(有放回bootstrap/无放回)、聚类选样、分层选样。

posted on 2013-12-09 18:54  Jizhiyuan  阅读(524)  评论(0编辑  收藏  举报

导航