数据质量分析
转自:http://www.tipdm.org/ganhuofenxiang/1026.jhtml
数据质量分析是数据挖掘中的重要一环,错误的假设和糟糕的数据问题都是导致数据挖掘结果产生偏差的重要原因。数据挖掘从业者常常会说“Garbage In ,Garbage Out”即“垃圾进,垃圾出”,装入的数据是垃圾,计算出来的结果也是垃圾。很多的时候我们过度重视重视算法,而忽略数据本身,算法固然重要,但是优质完整的数据却是要优于好的算法,假设如数据质量一样,数据特征选择合理,就算法的本身而言是不会有特别大的差异的。
那么,基于以上的认识,在做数据挖掘建模之前,往往先要做相关的数据准备,今天我们重点介绍一下数据质量分析。
数据质量分析的主要任务就是检查原始数据中是否有脏数据,脏数据一般是指不符合要求,以及不能直接用来建模分析的数据,主要包括:
缺失值
异常值
不一致的值
重复数据及含有特殊符号(如#、¥、*)的数据
缺失值产生的原因
数据缺失主要包括记录缺失和记录中某个字段缺失,数据缺失的原因有很多主要包括:
有些信息暂时无法获取,或者获取信息的代价太大。
信息被遗漏。这里又有两种情况,一种是认为因素,输入时认为不重要、忘记填写或对数据理解错误;另一种是物理故障,数据采集设备、存储介质、传输媒体的故障。
属性值不存在。在某些情况下,缺失值并不意味着数据有错误,如一个未婚者的配偶姓名、一个儿童的固定收入等。
缺失值的影响
数据缺失不仅会影响对业务的正常理解,更会影响建模的质量。数据有缺失会使其在建模的过程中丢失大量有用信息,有的模型不能够处理缺失值,比如SVN,最终会导致模型混乱,输出不可靠的信息。
异常值分析
异常值分析是检验数据是否含有录入错误以及含有不合常理的数据。异常值也称为离群点,表现为样本中的个别值,其数值明显偏离其余的观测值。异常值的分析也称为离群点分析。不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响。分析异常值产生的原因,常常成为发现问题进而改进决策的契机。常用分析方法:简单统计量分析、3σ原则、箱型图分析。
简单统计量分析
最常用的统计量主要是最大值和最小值,判断这个变量中的数据是不是超出了合理的范围。比如说,如身高的最大值为5米,则该变量的数据存在异常(巨人症也没这么高),某国家干部履历:12岁参加工作或者某客户年龄199岁,这些都是异常值。
需要注意的是异常值是否真正“异常”,要结合业务背景分析其产生的原因,例如航空信息数据中票价为空值,票价最小值为0,折扣率最小值为0、总飞行公里数大于0的记录。正常分析这数据可能是存在问题的,但是结合业务去理解就知道这样的数据是常旅客积分兑换造成的。
3 σ 原则
如果数据服从正态分布,在3σ原则下,异常值被定义为与平均值的偏差超过三倍标准差的值。
箱型图分析
箱型图分析可以直观地表现数据分布的本来面貌,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求。判断异常值的标准以四分位数和四分位距为基础,具有一定的鲁棒性。多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响。
一致性分析
在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,被挖掘数据来自于不同的数据源,重复存放的数据未能进行一致性更新。如两张表中都存储了用户的地址,在用户的地址发生改变时,如果只更新了一张表中的数据,那么这两张表中就有了不一致的数据。
重复数据及含有特殊符号
如果遇到重复数据及含有特殊符合的数据,检查一下产生的原因,一般情况的处理方式,通通删掉。
数据质量分析的常用方法就介绍这些,希望可以对各位带来帮助,重视数据质量分析,别让你数据沦为鸡肋。