缺失值处理
在日常的处理数据的时候,会遇到数据中某些地方没有值,也就是缺失了。
对于这种情况,一半有两种情况:删除和插补。
一般步建议删除。
API:sklearn.preprocessing.Imputer
参数介绍:missing_value 表示缺失值是什么;strategy 表示填补的策略,是用均值还是中值等;axis表示按照行还是列填补。
注意:数据中的人缺失值必须为np.nan,不能为?或nan等。
可以用replace函数将缺失值转换为np.nan
上代码:
1 from sklearn.preprocessing import StandardScaler,Imputer 2 import numpy as np 3 def im(): 4 ''' 5 缺失值处理 6 :return: 7 ''' 8 im=Imputer(missing_values='NaN', strategy='mean', axis=0) 9 data = im.fit_transform([[90,2,10,40],[np.nan,4,15,45],[75,3,13,46]]) 10 print(data) 11 if __name__ == '__main__': 12 im()
--------------------成功,肯定是需要一点一滴积累的--------------------