3-Pandas数据初探索之常用的描述性统计函数、汇总函数
函数 | 作用 | 函数 | 作用 |
count | 非缺失样本的数量 | sum | 求和 |
mean | 均值 | mad | 平均绝对偏差(Mean absolute deviation) |
median | 中位数 | min | 最小值 |
max | 最大值 | mode | 众数 |
abs | 绝对值 | prod | 乘积 |
std | 标准差 | var | 无偏方差 |
sem | 平均标准误差 | skew | 偏度(三阶矩) |
kurt | 峰度(四阶矩) | quantile | 分位数 |
cumsum | 累计求和 | cumprod | 累积 |
cummax | 累计最大值 | cummin | 累积最小值 |
二、汇总函数
(1)describe():查看各个特征的均值、标准差、最小值、最大值即分位数,对样本数据量进行统计,默认仅对数值型数据进行统计,也可通过上一节数据筛选中所说的include和exclude来设定包括或是剔除哪些类型的特征。
例如:>>>df.describe(include=['object'])
需要注意的是:
- describe()返回的对象也是一个DataFrame类型,所以我们是可以根据自身需求提取需要的汇总量;
- describe()也可以对非数值型数据进行统计,只是统计指标不同而已.
例如:
>>>df['grade'].describe() count 68 unique 6 top B freq 18 Name:grade,dtype:object
(2)info():显示各个特征数据类型、非空值数量、总体样本量、占用的内存空间;
若不关心其中缺失值的情况,则可设置null_counts参数的值为False;
>>>df.info(null_counts = False)
若不想具体查看特征的每个变量的情况,则可设置verbose参数的值为False;
>>>df.info(verbose=False)
(3)cov():协方差,描述各个特征之间的相关关系。
>>>df.cov()
即:若有n个特征,将生成一个n*n的矩阵
需要注意的是:协方差的绝对值不反应线性相关的程度
(4)corr():相关系数。表示线性相关的方向和相关程度,其值域为[-1,1]
>>>df.corr()