Python数据分析3------数据预处理

一、数据清洗

这一个步骤可以和数据探索并行。

（1）标签分类数据处理：LabelEncoder【将分类数据变成0-n的值】

from sklearn.prepocessing import LabelEncoder

enc = LabelEncoder()

label_encoder = enc.fit ( y )
#加1的意思是让标签从1开始
y = label_encoder.transform ( y ) + 1

（2）one-hot编码

2、数据集成

（1）概念

数据挖掘往往分布在不同的数据源中，进行数据分析时需要将多个不同的数据源整合到同一个数据存储（如数据仓库）中。但是来自不同地方的数据需要进行实体识别与冗余属性识别，避免数据整合错误以及数据重复。

实体识别：同名异义、异名同义、单位不统一

冗余属性识别：数据集成往往会造成数据重复冗余。

（2）过程：

①观察数据源，发现其中关系，详细查看是否同名异义或者异名同义的情况。

②进行数据读取与整合。

③去除重复数据。

第二步：数据整合可以用numpy.concatenate（(数组1，数组2)）函数来整合两个数组。也可以用dataframe.concat([frame1,frame2])来整合两个dataframe。

posted on 2018-03-29 14:21 吱吱了了阅读(624) 评论(0) 收藏举报

刷新页面返回顶部

Python数据分析3------数据预处理

一、数据清洗

（1）标签分类数据处理：LabelEncoder【将分类数据变成0-n的值】

2、数据集成

导航

公告