特征工程入门与实践—3 特征增强

第3章特征增强：清洗数据

主要内容：

　　识别数据中的缺失值；

　　删除有害数据；

　　输入（填充）缺失值；

　　对数据进行归一化/标准化；

　　构建新特征；

　　手动或自动选择（移除）特征；

　　使用数学矩阵计算将数据集转换到不同的维度。

3.1 识别数据中的缺失值

查看数据集中是否有数据点是空的，用pandas dataframe内置的isnull()方法：

　　dataname.isnull().sum() 统计缺失值的数量

3.2处理数据集中的缺失值

主要的两种处理方法：

　　删除缺少值的行 dataname.dropna()

　　填充缺失值 dataname['列名'].fillna(['列名'].mean(),inplace = True) 也可以用sklearn预处理类的Imputer模块（填充器）进行缺失值填充

数据集的每列均值： dataname.mean() 某列的均值 datanamme['列名'].mean()

posted @ 2020-04-09 17:06 hehe哒阅读(1053) 评论(0) 收藏举报

刷新页面返回顶部

hehe哒