数据预处理总结

1. 离散化

　　a) 无序变量离散化—— OneHotEncoder

　　b）有序变量离散化

　　　　等宽划分：按照相同宽度将数据分成几等份。缺点是受到异常值的影响比较大。 pandas.cut方法可以进行等宽划分。

　　　　等频划分：将数据分成几等份，每等份数据里面的个数是一样的。pandas.qcut方法可以进行等频划分。

　　　　聚类划分：使用聚类算法将数据聚成几类，每一个类为一个划分。

2. 缺失值处理

　　# 考虑全空才删，还是空一个就删

　　df.dropna(how = ,axis = )

　　# 用什么（平均值）填充空值

　　df.fillna()

df['Exterior_Color'].fillna(method='ffill') #前向填补

df['Exterior_Color'].fillna(method='bfill') #后向填补

df.Mileage.fillna(df.Mileage.mean()) # 年龄这里列 用均值填补

df.Mileage.fillna(df.Mileage.median()) #中位数填补

3. 重复值处理

　　df.xxx.drop_duplicates()

4. 异常值处理

# 剔除户主姓名,户主身份证号和年龄有缺失的样本
df.dropna(axis = 0,how='any',subset=['户主姓名','户主身份证号','age'],inplace = True) #1代表列，0代表行，只要有缺失，就删除这一行,基于三个变量

5.聚集

6.抽样

7.降维

8.特征子集

9..特征创建

10。变量变换

posted @ 2020-08-10 18:44 ChevisZhang 阅读(392) 评论(0) 收藏举报

刷新页面返回顶部

ChevisZhang