Python数据分析3------数据预处理

一、数据清洗

这一个步骤可以和数据探索并行。

(1)标签分类数据处理:LabelEncoder【将分类数据变成0-n的值】

from sklearn.prepocessing import LabelEncoder

enc = LabelEncoder()

label_encoder = enc.fit ( y )
#加1的意思是让标签从1开始
y = label_encoder.transform ( y ) + 1

 

 (2)one-hot编码

2、数据集成

(1)概念

数据挖掘往往分布在不同的数据源中,进行数据分析时需要将多个不同的数据源整合到同一个数据存储(如数据仓库)中。但是来自不同地方的数据需要进行实体识别与冗余属性识别,避免数据整合错误以及数据重复。

实体识别:同名异义、异名同义、单位不统一

冗余属性识别:数据集成往往会造成数据重复冗余。

(2)过程:

①观察数据源,发现其中关系,详细查看是否同名异义或者异名同义的情况。

②进行数据读取与整合。

③去除重复数据。

第二步:数据整合可以用numpy.concatenate((数组1,数组2))函数来整合两个数组。也可以用dataframe.concat([frame1,frame2])来整合两个dataframe。

 

posted on 2018-03-29 14:21  吱吱了了  阅读(568)  评论(0编辑  收藏  举报

导航