222wan

导航

数据清洗二

对于有价格和节省价格之类的数据进行处理

#异常值的处理                                                                                              
                                                                                                     
#博主给的数据是有关金额的所以异常值是比较大或者比较小的金额                                                                       
#找出节省的异常值                                                                                            
                                                                                                     
# df.describe().T 找出最大值和最小值                                                                          
                                                                                                     
##通常来说对于建模会删掉异常值,但是对于业务来说异常值会有商业价值                                                                   
                                                                                                     
#三倍标准差来衡量mean表示均值   std表示标准差                                                                         
#sta的结果是有正有负的数据                                                                                      
  #sta=(df['价格']-df['价格'].mean()/df['价格']).std()                                                     
        #价格减去平均值  再除以标准差                                                                             
       # 如果结果大于三表示大于了三倍标准差                                                                           
       #df[sta.abs()>3] abs 表示取绝对值                                                                   
                                                                                                     
       #sta[:10]表示只看前十个标准差                                                                           
                                                                                                     
                                                                                                     
                                                                                                     
     #  df[df.节省>df.价格]   将节省大于价格的数据提取出来                                                             
#deindex= pd.concat([df[df.节省>df.价格],df[sta.abs()>3]]).index                                         
#采用pd.concat函数将价格和节省的异常值组合起来注意concat中的两个数据必须要用中括号括起来   后面的index表示这concat提取出来的数据的索引                   
                                                                                                     
#然后采用df.drop(delindex, inplace=True) 强制在原数据上更改                                                       
                                                                                                     
                                                                                                     

 

posted on 2024-03-10 13:41  角落的蘑菇  阅读(5)  评论(0编辑  收藏  举报