常用的数学统计方法
import pandas as pd import numpy as np # pd03=pd.DataFrame(np.random.randint(0,100,size=(3,3))) pd03=pd.DataFrame([[52,55,13],[52,99,61],[32,5,36]]) print(pd03) ''' 输出为 0 1 2 0 52 55 13 1 52 99 61 2 32 5 36 ''' print(pd03.sum()) #按列求和 ''' 输出为 0 136 1 159 2 110 dtype: int64 ''' print(pd03.sum(axis=1)) #axis=1按行求和、axis=0按列求和 ''' 输出为 0 120 1 212 2 73 dtype: int64 ''' print(pd03.median()) #按列求中位数(先排序) ''' 输出为 0 52.0 1 55.0 2 36.0 dtype: float64 ''' print(pd03.mean()) #按列求平均值 ''' 输出为 0 45.333333 1 53.000000 2 36.666667 dtype: float64 ''' print(pd03.max()) #按列求最大值 ''' 输出为 0 52 1 99 2 61 dtype: int64 ''' print(pd03.min()) #按列求最小值 ''' 输出为 0 32 1 5 2 13 dtype: int64 ''' print(pd03.var()) #按列求方差 ''' 输出为 0 133.333333 1 2212.000000 2 576.333333 dtype: float64 ''' print(pd03.std()) #按列求标准差 ''' 输出为 0 11.547005 1 47.031904 2 24.006943 dtype: float64 '''
相关系数与协方差
相关系数(Correlation coefficient):反映两个样本/样本之间的相互关系以及之间的相关程度,在COV的基础上进行了无量纲化操作,也就是进行了标准化操作
协方差(Covariance, COV):反映两个样本/变量之间的相互关系以及之间的相关程度
# 相关系数corr()与协方差cov() import pandas as pd pd04=pd.DataFrame({ 'GDP':[40,80,100,120], 'forgin_trade':[100,200,300,400,], 'Year':['2012','2013','2014','2015'] }) print(pd04.cov()) #方差 ''' 输出为 GDP forgin_trade GDP 1166.666667 4333.333333 forgin_trade 4333.333333 16666.666667 ''' print(pd04.corr()) #相关系数 ''' 输出为 GDP forgin_trade GDP 1.000000 0.982708 forgin_trade 0.982708 1.000000 ''' print(pd04['GDP'].cov(pd04['forgin_trade'])) #通过cov反映观察出他们的关系 #输出为 4333.333333333333 print(pd04['GDP'].corr(pd04['forgin_trade'])) #通过corr反映观察出他们的关系 #输出为 0.982707629823991