特征工程入门与实践—3 特征增强

第3章 特征增强:清洗数据

主要内容:

  识别数据中的缺失值;

  删除有害数据;

  输入(填充)缺失值;

  对数据进行归一化/标准化;

  构建新特征;

  手动或自动选择(移除)特征;

  使用数学矩阵计算将数据集转换到不同的维度。

 

3.1 识别数据中的缺失值

查看数据集中是否有数据点是空的,用pandas dataframe内置的isnull()方法:

  dataname.isnull().sum()  统计缺失值的数量

3.2处理数据集中的缺失值

主要的两种处理方法:

  删除缺少值的行  dataname.dropna()

  填充缺失值  dataname['列名'].fillna(['列名'].mean(),inplace = True)   也可以用sklearn预处理类的Imputer模块(填充器)进行缺失值填充

数据集的每列均值: dataname.mean()   某列的均值 datanamme['列名'].mean()

posted @ 2020-04-09 17:06  hehe哒  阅读(973)  评论(0编辑  收藏  举报