pandas数据清洗-小记

1.查看数据缺失值数量

df=pd.read_csv(r'')

print(df.isnull().sum().sort_values())

2.条件筛选替换新值

df.loc[条件1,'替换列']=替换值

df[替换列]=df[替换列].replace(旧值,新值)

3.删除缺失值

df.fillna(axis=0,how=any,thresh=None,inplace=True)

axis为0指删除缺失值所在的行,1为缺失值所在的列

how:any,当前所在行或列只要有缺失值即删除;all,所在行或列全部值都为缺失值即删除

thresh:即保留多少个缺失值

inplace:True替换原数据,False不替换原数据

4.删除重复值

df.drop_duplicate()

5.切割数据

cutpoint=[临界值1,临界值2,临界值3,临界值4,.......]

grouplabel=[标签1,标签2,标签3,标签4,......]

df[新列名]=df.cut(df[切割列],cutpoint,lables=grouplabel)

 

 

 

posted @ 2021-05-05 16:18  alian_c  阅读(71)  评论(0编辑  收藏  举报