【数据挖掘学习笔记】第三章数据预处理

一、为什么需要数据预处理？

二、数据预处理的主要任务

(1)数据清理

——缺失数据

——如何处理缺失数据？

——异常数据

离群点

——回归：让数据适应回归函数来平滑数据

——聚类：通过聚类来检测并删除离群点

(2)数据转换

——数据变换：①类型转换 ②采样 ③标准化

——属性类别：①连续的 (例：实值：温度，高度，宽度)

②离散的(整数值：有多少人)

③序数的(排名：{矮，中，高})

④标称的(职业：{老师，工人，销售员}，颜色：{红，绿，蓝})

⑤字符串(非结构化)

——离散化：离散化是将连续属性转化成有序属性的过程
—应用于分类和关联任务中

—离散化涉及2个子任务：

①通过指定n-1个分割点，划分为n个区间；

②将一个区间中的所有值都映射到相同的分类值。

主要：决定选择多少个分割点，以及确定分割点的位置。

—根据是否使用类信息，分为：

——采样

——标准化：

—最大-最小标准化(Min-max)标准化：

—Z-score标准化：

(3)数据统计描述和可视化:

——数据描述的统计量：

(4)特征选取与提取

为什么要进行特征选择？ ——避免维度灾难

如何判断属性好坏？

——类别分别图：定性判断连续属性好不好

——类别柱状图：定性判断离散属性好不好

——熵：定量判断属性的好坏

——特征子集寻找

—穷举：将所有可能的组合combinations

—分枝定界法

特征提取：

——主成分分析：同一物体，降到低维空间中，都会存在信息损失。但从不同角度映射，丢失的信息将不同。

目标：使信息损失最少

PCA（无监督方法）：将原始的数据投影到特征向量上，对应的特征值最大的特征向量上。

——线性判别分析：给定一组点x1,x2,…,xn.所有可能的投影y=wTx,关键需要找到最大的具有可分性的投影。

目标：保持尽可能多的类别信息的同时进行降维。

posted @ 2022-04-28 16:56 xxxsardar 阅读(388) 评论(0) 收藏举报

刷新页面返回顶部

xxxsardar

【数据挖掘学习笔记】第三章数据预处理

离群点

公告