222wan

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

数据清洗

 

 

 

确定数据分析的目的,获取数据,清洗数据,探索数据,建模分析,结果交流

本篇主要采用python进行处理数据的方法进行描述

数据处理顺序:数据读写  , 数据探索与描述, 数据简单处理, 重复值的处理,缺失值的处理,异常值的处理,文本字符串的处理,

数据读写:

1
2
pd.read_csv('文件路径')
pd.read_excel('文件路径')

  

数据的探索欲描述:(使用pandas读入进来的数据全部都是datefreim的格式数据简写为df)

1
2
3
df.info()
df.describe()
#简单的统计描述

  数据的简单处理:

去除数据间的空格,英文字母的大小写转换

重复值的处理:

1
2
3
4
5
duplicate()
#重复值寻找函数
drop_duplicates()
 
#删除重复值

  缺失值处理:

删除缺失值、均值填补,向前填充、模型填补(如随机森林法)

 

异常值处理:删除异常值的记录

作为缺失值处理、平均值修正缺失值、不处理但作为业务分析挖掘价值

 

文本字符串处理:去除前后空格

去除中间有逗号或括号的数据,采用replace(',','')

正则表达式提取所需要数据

时间格式序列的处理:将系统时间格式化、系统时间和时间戳相互转化,年月日提取

 

posted on   角落的蘑菇  阅读(8)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示