数据预处理

数据预处理章节,整理于《数据挖掘·概念与技术》第三章,如有错误,请指正,谢谢~

1、概述

  数据清理可以去除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据进行存储,如数据仓库。数据规约可以通过如聚集,删除冗余特征或聚类降低数据的规模。数据变换(如规约化)可以把数据压缩到较小的区间,如0.0到1.0。这可以提高设计距离度量数据挖掘算法的准确率和效率。

  数据质量涉及到许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。

  在分析中使用多个数据源的数据那就是数据集成,数据集是巨大的,要降低数据集的规模,而又不损害数据挖掘的结果--数据规约(data reduction); 维规约:用数据编码方案,得到原始数据的简化或“压缩”表示。包括数据压缩技术(例如小波变换和主成分分析),以及属性子集选择(例如去掉不相关的属性)和属性构造(例如从原来数据集导出更有用的小属性集);数据规约:使用参数模型(例如回归和对数线性模型)或非参数模型(例如直方图、聚类、抽样或数据聚集)用较小的表示取代数据

  离散化和概念分层产生 也可能是有用的。

  规范化、数据离散化和概念分层产生都是某种形式的数据变换(data transformation)

2、数据清理

  现实的数据一般是不完整的、有噪声的和不一致的。数据清理试图填充缺失值、光滑噪声并识别离群点、纠正数据中的不一致

2.1缺失值:

  针对缺失值有很多种方法忽略改元组,人工填写,用一个全局变量填充,使用属性中心度量(均值或中位数)填充,使用与给定元组属同一类的样本属性均值或中位数代替, 使用最可能的值填充缺失值。

  貌似方法"使用最可能的值填充缺失值"最靠谱:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。

2.2噪声数据:

  “噪声”(noise)是被测量的变量的随机误差或方差

  数据光滑技术:分箱(binning)、回归(regression)、离群点分析(outlier analysis)

  回归:用一个函数拟合数据来光滑数据,线性回归找出拟合两个属性的最佳直线。多元线性回归是线性回归的扩充,属性多于2个,数据将拟合到一个多维曲面

  有些分类方法有内置的数据光滑机制(如神经网络)

2.3数据清理作为一个过程

  第一步是偏差检测(discrepancy detection),例如,找出均值,中位数,众数。数据是对称的还是倾斜的?值域是什么?所有的值是否都落于期望区间?每个属性的标准差是多少?远离给定属性均值超过两个标准差的值可能标记为可能的离群点。属性之间是否存在已知的依赖关系?

  还可以根据唯一性规则、连续性规则和空值规则考查数据。

  

3、数据集成

 3.1实体识别问题:

  数据集成是将来自多个数据源的数据合并,并存放在一个一致的数据存储中。考虑多个信息源的现实世界的等价实体如何相互“匹配”?如一个customer_id字段与另一个数据库中的cust_number是否相同属性。要考虑每个属性的元数据,包括名字、含义、数据类型、和取值范围,以及处理空白,空值和null的规则。 还可以进行变换数据,如性别有的用B和G代表,还有的用1和2代表

 3.2冗余和相关性分析

  冗余是常见的,比如一个属性(年收入)可以由其他属性导出(月收入),那么就是冗余的。

  冗余可以被相关分析检测到。对于标称数据可以用(卡方)检验;对于数值型数据可以用相关系数(correlation coefficient)和协方差(covariance)检验,这两个都是评估一个属性的值如何随另一个属性值变化。

  (1)标称数据的卡方相关检验:

  有两个属性A和B,属性A有c个不同值,a1,a2……ac;属性B有r个不同值,b1,b2,……br;A和B两个属性描述的数据元组可以用一个相依表显示,A属性为列,B属性为行,构成的每个元组(Ai,Bj);则卡方的表达式为:

  Oij是联合事件(Ai,Bj)的实际观测频度,Eij则是(Ai,Bj)的期望频度。其中n是数据元组的个数,count(A=ai)表示A上具有ai值的所有个数,同理。

  卡方统计检验假设A和B都是独立的,检验基于显著水平,具有自由度(r-1)X(c-1),如果可以拒绝改假设,则我们可以说A和B是统计相关的。

  例子1:性别与是否爱阅读小说的卡方检验

  合计
小说 250(90) 200(360) 450
非小说 50(210) 1000(840) 1050
合计 300 1200 1500

 其中括号内的数是期望频率,期望频率是根据两个属性的数据分布用eij式子计算得来,如(男,小说)的期望频率是e11 = count(男)Xcount(小说) / n =  300X450/1500 = 90

注意:任意行,期望频率的和必须等于改行总观测频率,并且任意列的期望频率和也必须等于该列的总观测频率。利用卡方计算公式有

=284.44+121.90+71.11+30.48 = 507.93 

对于2X2的表,自由度为(2-1)X(2-1)=1, 自由度为1,在0.001置信水平下,拒绝假设的值为10.828,我们计算值大于该值,因此我们拒绝两个属性独立的假设。

  例2:医院分别用化疗和化疗结合放射结合两种方法,如图

组别  有效  无效  合计  有效率(%) 
化疗组  19  24  43  44.2 
化疗加放疗组  34  10  44  77.3 
合计  53  34  87  60.9 

分别计算期望频度,总数n是87,第一行第一列:count(有效)Xcount(化疗组)/n=53*43/87=26.2;第一行第二列:count(化疗)Xcount(无效)/n=43*34/87=16.8;第二行第一列:count(化疗加放疗)Xcount(有效)/n=44*53/87=26.8;第二行第二列:44*34/87=17.2

 

组别  有效  无效  合计 
化疗组  19(26.2)  24(16.8)  43 
化疗加放疗组  34(26.8)  10(17.2)  44 
合计  53  34  87 

则卡方的值为:(19-26.2)^2/26.2 + (34-26.8)^2/26.8 +(24-16.8)^2/16.8 + (10-17.2)^2/17.2 = 10.01

 

在查表之前应知本题自由度。按x2检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查x2界值表(附表20-1),找到x20.001(1)=6.63原地方是否差错了?而本题x2=10.01即x2>x20.001(1),P<0.01,差异有高度统计学意义,按α=0.05水准,拒绝假设独立,可以认为采用化疗加放疗治疗卵巢癌的疗效比单用化疗佳。

 

  (2)数值数据的协方差与相关系数:

  在概率论与统计学中,协方差和方差是具有类似的度量,协方差是方差在多维随机变量的扩展,即刻画随机变量在其中心位置附近散步程度的数字特征

  方差:Var(X)=E(X - EX)^2 ; 另EX=a,则 Var(X) = E(X^2) - 2aE(X) +a^2 = E(X^2) - (EX)^2

  考虑两个数值属性A,B和多次观测的集合{(a1, b1), ……(an,bn)},协方差定义为:          

  协相关系数的定义:分子分别为A和B的标准差。 还可以证明Cov(A,B) = E(A·B) - E(A)·E(B)

  容易发现,对于两个趋向于一起改变的属性A和B,如果A大于期望A,则B很有可能大于期望B,那么此时协方差为正,且协相关系数>0,如果一个属性小于期望值,另一个属性趋向于大于期望值则,协方差为负,

  若A,B独立(不具有相关性),那么协方差为0,反之不成立。

  协方差例子:

  交易数据与股票价格的简化例子,如果股市收到相同的产业趋势影响,他们的股价会一起涨跌吗,E(electronics)=(6+5+4+3+2)/5 = 4美元,E(HighTech)=(20+10+14+5+5)/5=10.8美元

  则协方差为Cov() = E(A·B)- E(A)·E(B) = 7,则表明是正相关。

 

 

4、数据规约(待完善)

5、数据变换与数据离散化(待完善)

posted @ 2015-01-31 14:49  木幽落_思  阅读(2794)  评论(1编辑  收藏  举报