数据预处理

离群点检测

https://blog.csdn.net/littlely_ll/article/details/68486537

缺失值补充[知乎]机器学习中如何处理缺失数据? - 马骏的回答 - 知乎 https://www.zhihu.com/question/26639110/answer/33712286

1 可以通过中位数、众数、平均值等方式进行填充。相当于是认为制造噪点。

2 用预测值填充,由于是模型预测得到的结果,所以数据对拟合模型元素是无用功。

3 把增加一个变量,直接这个特征增加缺失值这一个属性,能够保持原有数据的信息量,但是会造成计算复杂度。

数据偏态分布http://www.statisticshowto.com/probability-and-statistics/skewed-distribution/

使用log transformation方式处理。

 

posted @ 2018-05-19 16:15  难解是非题  阅读(218)  评论(0编辑  收藏  举报