pandas数据清洗-小记

1.查看数据缺失值数量

df=pd.read_csv(r'')

print(df.isnull().sum().sort_values())

2.条件筛选替换新值

df.loc[条件1,'替换列']=替换值

df[替换列]=df[替换列].replace(旧值，新值)

3.删除缺失值

df.fillna(axis=0,how=any,thresh=None,inplace=True)

axis为0指删除缺失值所在的行，1为缺失值所在的列

how:any,当前所在行或列只要有缺失值即删除；all,所在行或列全部值都为缺失值即删除

thresh:即保留多少个缺失值

inplace:True替换原数据,False不替换原数据

4.删除重复值

df.drop_duplicate()

5.切割数据

cutpoint=[临界值1，临界值2，临界值3，临界值4，.......]

grouplabel=[标签1，标签2，标签3，标签4，......]

df[新列名]=df.cut(df[切割列]，cutpoint,lables=grouplabel)

posted @ 2021-05-05 16:18 alian_c 阅读(90) 评论(0) 收藏举报

刷新页面返回顶部

alian_c