数据预处理 总结
1. 离散化
a) 无序变量离散化—— OneHotEncoder
b)有序变量离散化
等宽划分:按照相同宽度将数据分成几等份。缺点是受到异常值的影响比较大。 pandas.cut方法可以进行等宽划分。
等频划分:将数据分成几等份,每等份数据里面的个数是一样的。pandas.qcut方法可以进行等频划分。
聚类划分:使用聚类算法将数据聚成几类,每一个类为一个划分。
内容来自 https://www.cnblogs.com/jiaxin359/p/8574510.html
内容来自 https://www.cnblogs.com/xingnie/p/12264505.html
2. 缺失值处理
# 考虑全空才删,还是空一个就删
df.dropna(how = ,axis = )
# 用什么(平均值)填充空值
df.fillna()
df['Exterior_Color'].fillna(method='ffill') #前向填补
df['Exterior_Color'].fillna(method='bfill') #后向填补
df.Mileage.fillna(df.Mileage.mean()) # 年龄这里列 用均值填补
df.Mileage.fillna(df.Mileage.median()) #中位数填补
3. 重复值处理
df.xxx.drop_duplicates()
4. 异常值处理
# 剔除户主姓名,户主身份证号和年龄有缺失的样本
df.dropna(axis = 0,how='any',subset=['户主姓名','户主身份证号','age'],inplace = True) #1代表列,0代表行,只要有缺失,就删除这一行,基于三个变量
https://blog.csdn.net/lyxleft/article/details/84325697#%E8%81%9A%E9%9B%86
5.聚集
6.抽样
7.降维
8.特征子集
9..特征创建
10。变量变换