pandas数据清洗-小记
1.查看数据缺失值数量
df=pd.read_csv(r'')
print(df.isnull().sum().sort_values())
2.条件筛选替换新值
df.loc[条件1,'替换列']=替换值
df[替换列]=df[替换列].replace(旧值,新值)
3.删除缺失值
df.fillna(axis=0,how=any,thresh=None,inplace=True)
axis为0指删除缺失值所在的行,1为缺失值所在的列
how:any,当前所在行或列只要有缺失值即删除;all,所在行或列全部值都为缺失值即删除
thresh:即保留多少个缺失值
inplace:True替换原数据,False不替换原数据
4.删除重复值
df.drop_duplicate()
5.切割数据
cutpoint=[临界值1,临界值2,临界值3,临界值4,.......]
grouplabel=[标签1,标签2,标签3,标签4,......]
df[新列名]=df.cut(df[切割列],cutpoint,lables=grouplabel)