3-Pandas数据初探索之常用的描述性统计函数、汇总函数

一、常用的描述性统计函数
函数	作用	函数	作用
count	非缺失样本的数量	sum	求和
mean	均值	mad	平均绝对偏差（Mean absolute deviation）
median	中位数	min	最小值
max	最大值	mode	众数
abs	绝对值	prod	乘积
std	标准差	var	无偏方差
sem	平均标准误差	skew	偏度（三阶矩）
kurt	峰度（四阶矩）	quantile	分位数
cumsum	累计求和	cumprod	累积
cummax	累计最大值	cummin	累积最小值

二、汇总函数

（1）describe()：查看各个特征的均值、标准差、最小值、最大值即分位数，对样本数据量进行统计,默认仅对数值型数据进行统计，也可通过上一节数据筛选中所说的include和exclude来设定包括或是剔除哪些类型的特征。

　　例如：>>>df.describe(include=['object'])

需要注意的是：

　　例如：

>>>df['grade'].describe()
count 68
unique 6
top  B
freq 18
Name:grade,dtype:object

（2）info()：显示各个特征数据类型、非空值数量、总体样本量、占用的内存空间；

　　若不关心其中缺失值的情况，则可设置null_counts参数的值为False；

　　>>>df.info(null_counts = False)

　　若不想具体查看特征的每个变量的情况，则可设置verbose参数的值为False;

　　>>>df.info(verbose=False)

（3）cov()：协方差，描述各个特征之间的相关关系。

　　>>>df.cov()

　　即：若有n个特征，将生成一个n*n的矩阵

　　需要注意的是：协方差的绝对值不反应线性相关的程度

（4）corr()：相关系数。表示线性相关的方向和相关程度，其值域为[-1,1]

　　>>>df.corr()

posted @ 2020-07-26 20:30 大脸猫12581 阅读(1091) 评论(0) 收藏举报

刷新页面返回顶部