数据清洗二
对于有价格和节省价格之类的数据进行处理
#异常值的处理 #博主给的数据是有关金额的所以异常值是比较大或者比较小的金额 #找出节省的异常值 # df.describe().T 找出最大值和最小值 ##通常来说对于建模会删掉异常值,但是对于业务来说异常值会有商业价值 #三倍标准差来衡量mean表示均值 std表示标准差 #sta的结果是有正有负的数据 #sta=(df['价格']-df['价格'].mean()/df['价格']).std() #价格减去平均值 再除以标准差 # 如果结果大于三表示大于了三倍标准差 #df[sta.abs()>3] abs 表示取绝对值 #sta[:10]表示只看前十个标准差 # df[df.节省>df.价格] 将节省大于价格的数据提取出来 #deindex= pd.concat([df[df.节省>df.价格],df[sta.abs()>3]]).index #采用pd.concat函数将价格和节省的异常值组合起来注意concat中的两个数据必须要用中括号括起来 后面的index表示这concat提取出来的数据的索引 #然后采用df.drop(delindex, inplace=True) 强制在原数据上更改