#查看空值情况 import pandas as pd pd.set_option("display.unicode.east_asian.width",True) df=pd.read_excel('msb课程记录.xls') print(df) print('---------------------------------------------------') print(df.info()) #查看是否有缺失值 print('---------------------------------------------------') print(df.isnull())#结果为Ture 或者 False,不为NaN时,为false print(df.notnull()) #结果为Ture 或者 False,不为NaN时,为True
# #删除有空值的行(全部列有空值的行)
#删除有空值的行(全部列有空值的行) import pandas as pd pd.set_option("display.unicode.east_asian.width",True) df=pd.read_excel('msb课程记录.xls') print(df) print('---------------------------------------------------') df=df.dropna() #删除有空值的行 print(df)
##提取某列不是空的数据
#提取某列不是空的数据 import pandas as pd pd.set_option("display.unicode.east_asian.width",True) df=pd.read_excel('msb课程记录.xls') print(df) print('---------------------------------------------------') df=df[df['课程总数量'].notnull()] print(df) #提取课程数量中不为NaN
##某列空值填充为某数 fillna()
#某列空值填充为某数 import pandas as pd pd.set_option("display.unicode.east_asian.width",True) df=pd.read_excel('msb课程记录.xls') print(df) print('---------------------------------------------------') df['课程总数量']=df['课程总数量'].fillna(0) #填充空值 fillna(要填充成什么数) print(df)
##重复值的处理
#重复值的处理 import pandas as pd pd.set_option("display.unicode.east_asian.width",True) df=pd.read_excel('msb课程记录.xls') print(df) print('---------------------------------------------------') #是否具有重复值 print(df.duplicated()) #有ture 有重复值 #去除全部的重复值 #df=df.drop_duplicates() #每个列的数据相同的删除 #print(df) #去除全部的重复值,保留重复行中的最后一行 df=df.drop_duplicates('买家实际支付金额',keep='last') #keep='last' 表示 保留重复行中的最后一行 print(df) #直接删除,保留一个副本 df1=df.drop_duplicates('买家实际支付金额',inplace=False) #inplace=False 直接删除,保留一个副本 print(df) print(df1)