数据清洗
确定数据分析的目的,获取数据,清洗数据,探索数据,建模分析,结果交流
本篇主要采用python进行处理数据的方法进行描述
数据处理顺序:数据读写 , 数据探索与描述, 数据简单处理, 重复值的处理,缺失值的处理,异常值的处理,文本字符串的处理,
数据读写:
1 2 | pd.read_csv( '文件路径' ) pd.read_excel( '文件路径' ) |
数据的探索欲描述:(使用pandas读入进来的数据全部都是datefreim的格式数据简写为df)
1 2 3 | df.info() df.describe() #简单的统计描述 |
数据的简单处理:
去除数据间的空格,英文字母的大小写转换
重复值的处理:
1 2 3 4 5 | duplicate() #重复值寻找函数 drop_duplicates() #删除重复值 |
缺失值处理:
删除缺失值、均值填补,向前填充、模型填补(如随机森林法)
异常值处理:删除异常值的记录
作为缺失值处理、平均值修正缺失值、不处理但作为业务分析挖掘价值
文本字符串处理:去除前后空格
去除中间有逗号或括号的数据,采用replace(',','')
正则表达式提取所需要数据
时间格式序列的处理:将系统时间格式化、系统时间和时间戳相互转化,年月日提取
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律