数据挖掘中的常见数据预处理方法总结

一.基本概念

为什么需要数据预处理：

现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术

数据：数据对象及其属性的集合

属性值是分配给属性的数字或符号

属性和属性值的区别 – 相同的属性可以映射到不同的属性值

　　　　　　　 – 不同的属性可以映射到同一组值

属性值的类型：

属性的类型取决于它拥有以下哪些属性：独特性（可以判断等于和不等）；顺序；加法；乘法

标称属性：独特性

序数属性：独特性和顺序

区间属性：独特性、顺序和加法(比如温度)

比率属性：所有 4 个属性（比如长度）

数据集的类型：

记录数据，图数据，顺序数据

顺序数据举例：

基因组序列数据；

时间-空间数据：

属性的模式（众数）是出现频率最高的属性值

百分位数：对于连续数据，百分位数的概念更有用，给定一个有序或连续的属性 x 和一个 0到100 之间的数字p，第p个百分位数是一个值 x 使得 p%的值小于 x 的观测值

第二个四分位数 = 第 50 个百分位数 = 中位数

第三个四分位数 = 第 75 个百分位数

五数总结法：最低 – 第 1 个四分位数 – 中位数 – 第三个四分位数 – 最大值，可用箱形图表示

散点图：属性值两两配对作图，可用于发现属性间的关系

矩阵的每个值是其行坐标与列坐标的相似性

平行坐标图：

每一条折线代表一个实例，横坐标是不同的属性

数据质量问题：

噪音：噪声是指对原始值的修改

异常值：异常值是具有与数据集中的大多数其他数据对象显着不同的特征的数据对象

缺失值

重复数据

数据质量的衡量标准:

● 准确性：正确或错误，准确与否

● 完整性：未记录、不可用、……

● 一致性：一些修改但一些没有，悬空，

● 及时性：及时更新？

● 可信度：数据正确的可信度如何？

● 可解释性：数据有多容易被理解？

数据预处理

数据清洗

清理缺失数据：

●忽略元组：通常在缺少类标签时完成（进行分类时）——当每个属性的缺失值百分比变化很大时无效

● 手动填写缺失值：乏味+不可行？

● 自动填写

– 一个全局常量：例如，“未知”，一个新类

– 属性均值

– 属于同一类的所有样本的属性均值：更聪明

– 最可能的值：基于推理，如贝叶斯公式或决策树

– 替换为所有可能的值（按概率加权）

清理噪声数据：

● 分箱 – 首先对数据进行排序并将其划分为等频箱 – 然后可以通过分箱方法平滑，比如通过分箱中值平滑，通过分箱边界平滑等。

举例：

价格的排序数据（以美元计）：4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34

划分为等频（等深度）箱： - 箱 1：4、8、9、15 - 箱 2：21、21、24、25 - 箱 3：26、28、29、34

按 bin 平滑意味着： - 箱 1: 9, 9, 9, 9 - 箱 2：23、23、23、23 - 箱 3: 29, 29, 29, 29

按 bin 边界平滑： - 箱 1: 4, 4, 4, 15 - 箱 2：21、21、25、25 - 箱 3：26、26、26、34

● 回归 – 通过将数据拟合到回归函数中来平滑

● 聚类

● 结合计算机和人工检查

清理不一致的数据更复杂 ● 使用依赖，比如函数依赖 ● 使用人工编译的规则

识别或移除异常值

数据集成	多个数据库、数据立方体或文件的集成（不介绍）

数据缩减

概念：获得数据集的缩减表示，该表示的数量要小得多，但仍会产生相同（或几乎相同）的分析结果

为什么要减少数据？ 数据库可能存储数 TB 的数据。复杂的数据分析可能需要很长时间才能在完整的数据集上运行

维度诅咒：如果您在单位正方形中随机选择一个点，它与边界距离小于 0.001 的几率只有 0.4%，可以计算这个值在单位线段时是0.2%，单位立方体时是0.6%，在一个 1000 维的单位超立方体中，这个概率大于 99.999999%，因此高维超立方体中的大多数点都非常靠近边界。如果您考虑足够多的维度，那么您认识的任何人都可能是至少一个维度的极端分子。当维数增加时，数据在它占据的空间中变得也越来越稀疏，这样对聚类和异常值检测至关重要的点之间的密度和距离的定义变得没有意义。

数据缩减策略

降维：