1.17

python数据清洗（六）

6.1 重复值处理
数据清洗一般先从重复值和缺失值开始处理
重复值一般采取删除法来处理
但有些重复值不能删除，例如订单明细数据或交易明细数据等

6.2 缺失值处理
缺失值首先需要根据实际情况定义
可以采取直接删除法
有时候需要使用替换法或者插值法
常用的替换法有均值替换、前向、后向替换和常数替换

6.3 异常值处理
指那些偏离正常范围的值，不是错误值
异常值出现频率较低，但又会对实际项目分析造成偏差
异常值一般用过箱线图法(分位差法)或者分布图(标准差法)来判断
异常值往往采取盖帽法或者数据离散化

6.4 数据离散化处理
数据离散化就是分箱
一般常用分箱方法是等频分箱或者等宽分箱
一般使用pd.cut或者pd.qcut函数
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)

x，类array对象，且必须为一维，待切割的原形式
bins, 整数、序列尺度、或间隔索引。如果bins是一个整数，它定义了x宽度范围内的等宽面元数量，
但是在这种情况下，x的范围在每个边上被延长1%，以保证包括x的最小值或最大值。
如果bin是序列，它定义了允许非均匀bin宽度的bin边缘。在这种情况下没有x的范围的扩展。
right,布尔值。是否是左开右闭区间，right=True,左开右闭，right=False,左闭右开
labels,用作结果箱的标签。必须与结果箱相同长度。如果FALSE，只返回整数指标面元。
retbins,布尔值。是否返回面元
precision，整数。返回面元的小数点几位
include_lowest，布尔值。第一个区间的左端点是否包含
1
2
3
4
5
6
7
8
9
pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates=’raise’)

x
q,整数或分位数组成的数组。
q, 整数或分位数数组整数比如 4 代表按照4分位数进行切割
labels, 用作结果箱的标签。必须与结果箱相同长度。如果FALSE，只返回整数指标面元。
1
2
3
4

posted @ 2024-01-17 21:39 布吉岛？？？阅读(30) 评论(0) 收藏举报

刷新页面返回顶部

mine-my

1.17

公告