数据清洗二
对于有价格和节省价格之类的数据进行处理
#异常值的处理 #博主给的数据是有关金额的所以异常值是比较大或者比较小的金额 #找出节省的异常值 # df.describe().T 找出最大值和最小值 ##通常来说对于建模会删掉异常值,但是对于业务来说异常值会有商业价值 #三倍标准差来衡量mean表示均值 std表示标准差 #sta的结果是有正有负的数据 #sta=(df['价格']-df['价格'].mean()/df['价格']).std() #价格减去平均值 再除以标准差 # 如果结果大于三表示大于了三倍标准差 #df[sta.abs()>3] abs 表示取绝对值 #sta[:10]表示只看前十个标准差 # df[df.节省>df.价格] 将节省大于价格的数据提取出来 #deindex= pd.concat([df[df.节省>df.价格],df[sta.abs()>3]]).index #采用pd.concat函数将价格和节省的异常值组合起来注意concat中的两个数据必须要用中括号括起来 后面的index表示这concat提取出来的数据的索引 #然后采用df.drop(delindex, inplace=True) 强制在原数据上更改
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律