【数据挖掘学习笔记】第三章数据预处理

一、为什么需要数据预处理?

 

 

二、数据预处理的主要任务

 

 (1)数据清理

 

——缺失数据

 

——如何处理缺失数据?

 

 ——异常数据

离群点

——回归:让数据适应回归函数来平滑数据

——聚类:通过聚类来检测并删除离群点

(2)数据转换

——数据变换:①类型转换 ②采样 ③标准化

 

——属性类别:①连续的 (例:实值:温度,高度,宽度)

                         ②离散的(整数值:有多少人)

                         ③序数的(排名:{矮,中,高})

                         ④标称的(职业:{老师,工人,销售员},颜色:{红,绿,蓝})

                         ⑤字符串(非结构化)

 ——离散化:离散化是将连续属性转化成有序属性的过程
                —应用于分类和关联任务中

                —离散化涉及2个子任务:

                   ①通过指定n-1个分割点,划分为n个区间;

                   ②将一个区间中的所有值都映射到相同的分类值。

                主要:决定选择多少个分割点,以及确定分割点的位置。

                —根据是否使用类信息,分为:

                     

 

 ——采样

                    

 

 ——标准化:

         —最大-最小标准化(Min-max)标准化:

 

         —Z-score标准化:

 

 (3)数据统计描述和可视化:

——数据描述的统计量:

 

 

 

(4)特征选取与提取

为什么要进行特征选择?  ——避免维度灾难

如何判断属性好坏?

——类别分别图:定性判断连续属性好不好

 

——类别柱状图:定性判断离散属性好不好

 

 ——熵:定量判断属性的好坏

——特征子集寻找

   —穷举: 将所有可能的组合combinations

   —分枝定界法

特征提取:

——主成分分析:同一物体,降到低维空间中,都会存在信息损失。但从不同角度映射,丢失的信息将不同。

       目标:使信息损失最少

PCA(无监督方法):将原始的数据投影到特征向量上,对应的特征值最大的特征向量上。

——线性判别分析:给定一组点x1,x2,…,xn.所有可能的投影y=wTx,关键需要找到最大的具有可分性的投影。  

 

       目标:保持尽可能多的类别信息的同时进行降维。

posted @ 2022-04-28 16:56  xxxsardar  阅读(244)  评论(0编辑  收藏  举报