数据挖掘概念与技术(韩家伟)阅读笔记3--数据清理
1.数据清理清理什么。
缺失值,噪声,纠正数据的不一致
2.清理噪声的方法
a.分箱。对象是有序的数据。可以用箱的均值,中位数,箱边界光滑(箱中的每一个值都被据它最近的边界值代替)。
b.回归。用一个函数拟合数据进行光滑。
c.聚类。
3.数据清理作为一个过程
a.偏差检测(第一步检测。主要解决不一致的问题)。
(1)警惕编码的不一致和数据表示的不一致(比如日期表示)。
(2)字段过载。将新属性定义到已有属性未使用的位。
(3)唯一性原则。给定属性的值必须不同于该属性所有的其他值。
(4)连续性原则。属性的最小值和最大值之间没有缺失的值。
(5)空值规则。说明空白,问号,特殊符号等的使用及如何处理这样的值。
工具:数据清洗工具
数据审计工具
b.数据变换(第二步纠正偏差)
数据迁移工具:允许说明简单的变换。例如将gender变为sex(属性名).
ETL(提取/变换/装入工具)
说明;这两种方法只能做简单的变换,通常在这一步我们需要编写定制的程序。
4.说明:
在数据清理的过程中,通常是偏差检测和数据变换多次迭代进行的。