222wan

导航

数据清洗

 

 

 

确定数据分析的目的,获取数据,清洗数据,探索数据,建模分析,结果交流

本篇主要采用python进行处理数据的方法进行描述

数据处理顺序:数据读写  , 数据探索与描述, 数据简单处理, 重复值的处理,缺失值的处理,异常值的处理,文本字符串的处理,

数据读写:

pd.read_csv('文件路径')
pd.read_excel('文件路径')

  

数据的探索欲描述:(使用pandas读入进来的数据全部都是datefreim的格式数据简写为df)

df.info()
df.describe()
#简单的统计描述

  数据的简单处理:

去除数据间的空格,英文字母的大小写转换

重复值的处理:

duplicate()
#重复值寻找函数
drop_duplicates()

#删除重复值

  缺失值处理:

删除缺失值、均值填补,向前填充、模型填补(如随机森林法)

 

异常值处理:删除异常值的记录

作为缺失值处理、平均值修正缺失值、不处理但作为业务分析挖掘价值

 

文本字符串处理:去除前后空格

去除中间有逗号或括号的数据,采用replace(',','')

正则表达式提取所需要数据

时间格式序列的处理:将系统时间格式化、系统时间和时间戳相互转化,年月日提取

 

posted on 2024-03-09 20:46  角落的蘑菇  阅读(3)  评论(0编辑  收藏  举报