数据分析-03数据分析
数据分析:
1.基本统计:describe()
常用的统计函数:
size:计数
sum:求和
mean:均值
var:方差
std:标准差
2.分组分析:groupby()
groupby(by=[分组列1,分组列2....])[统计列1,统计列2,...].agg({统计列别名1:统计函数;统计列别名2:统计函数,...})
参数说明:
by:用于分组的列
中括号:用于统计的列
agg:统计别名显示统计值的名称
3.分布分析:
4.交叉分析:pivot_table(values,index,columns,aggfunc,fill_value)
参数说明:
values:数据透视表中的值
index:数据透视表中的行
columns:数据透视表中的列
aggfunc:统计函数
fill_value:NA值的统一替换
5.结构分析:axis参数说明
0按列运算,1按行运算
数据框的外运算函数:add,sub,multiply,div --->加减乘除
数据框的内运算函数:sum,mean,var,sd ---->求和,均值,方差,标准差
6.相关分析:
0 - 0.3 低度相关
0.3 - 0.8 中度相关
0.8 - 1 高度相关
相关分析函数:DataFrame.corr()
Series.corr(other)
如果由数据框调用corr方法,那么将计算每个列两两之间的相似度
例如:data['身高'].corr(data['体重'])
如果由序列调用corr方法,那么只是计算该序列与传入的序列之间的相关度
data.loc选择多列
例如:data.loc[:,[‘身高’,‘体重’,‘学历’]],corr()
2019.10.22补:
df.head() 默认输出之后的五行,也可以在括号里面添加你想要输出的数据行。
df.info() 输出显示文件信息,查看数据类型,判断是否有空值等