数据的预处理

2017-12-04 16:31:10

数据预处理（data preprocessing）是指在主要的处理以前对数据进行的一些处理。

比如缺项，噪声（工资=-100），不匹配（年龄和出生日期不匹配），冗余等等。

一、数据清洗

1）缺少数据

可能的原因有设备故障，数据没有提供，N/A不适用。

缺少数据也是有各种类别的

一是完全随机的缺失
二是某种条件下的随机缺失
三是必然缺失

处理方法：

忽略，把这些数据删除
手工重填，要么给用户重填，要么自己根据经验重填
自动重填，遇到缺项填入一个缺省值

2）异常值

如何判别Outlier，也就是离群点呢？这里给出一个算法：

这里的distancek（o）就是一个knn的距离，也就是图中的k=3时，OP3之间的距离。

lrd（A）中分母部分是A到k个近邻的距离和比上近邻数。

lofk（A）就是算的一个相对概念，也就是使用A中的k近邻的lrd和再除以A本省的lrd和来进行判别A是否是Outlier。

这也很好理解，判断一个人在班级里是否离群，不能单从他一天只和很少的同学聊天进行判定，因为如果他周围的同学都很高冷，那么也不能说他是离群的。所以是否离群从本质上来说是个相对的概念。

一个例子：

3）重复数据

一般使用滑动窗口的方法来进行去重，但是这有个前提，就是相同的数据离的很近。因此需要通过键值来排序。

键值的生成就很有讲究了，可以采用各种方法来进行定义。

4）类型转换

数据有各种类型，连续型，离散型，序列词（好，中，差），称呼（红绿蓝），字符串等。

在给数据进行编码的时候就要注意了，如果是给序列词编码，那还好，因为其本身就有一个差异，但是在给红绿蓝这类的进行编码的时候就比较麻烦了，当然了，可以简单的用1，2，3进行编码但是，这种编码会导致红蓝在维度上距离变远，有可能导致问题复杂度上升。如下图，如果调整编码方式，那么分割线就可以从曲线变成直线。

有种处理的方法是使用多维空间的方法进行简化计算，比如三种颜色，就可以使用三维来进行表示，这样三种颜色的距离就是一样的。但是这种方法的缺点也是很明显的，如果类型数目很多那么相应的维数就会爆炸。

5）不平衡数据集

在处理不平衡数据集的时候就不能单单只看正确率了，比如判断一个人是否感冒，100个人里只有一个人感冒，99个人健康，你的分类器最后收敛到全部报健康，那么正确率是99%，但是我要这样的分类器有何用呢？

所以在处理不平衡数据的时候要综合考虑。

实际上非常简单，精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，也就是
$P = \frac{TP}{TP+FP}$
而召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。
$R = \frac{TP}{TP+FN}$