1、假设检验

做出一个假设,去验证。

需要设定置信度,如95%

两类错误:

两类错误是概率

 

原假设一般为等式。

样本量的影响:

步骤:假设—置信度—收集数据—计算p值判断

T检验

 

 拒绝域和接受域。

单样本T检验,没有数据,这个课程没有数据,很遗憾,一会在找数据从新做一遍!

 

 两变量

男生和女生的月均支出是否有差异?

方差是否相等?F检验!

开始,t统计量!

数据说明,目的为筛选变量

 

 

 

 

 

 方差分析

教育程度对信用卡支出是否有差别?

 

总变异说明:

组内变异:

 

 组间变异:

 

 自己理解:总变异:(单个样本的均值 -总体样本的均值)的平方和

     组内变异: 这个组(样本的值- 这个样本所在组的均值)的平方和 + 另一组(样本的值- 这个样本所在这个组的均值)平方和

     组间变异:(每个组的均值-总体的平均值)的平方和

     我能理解,别人能不能理解我不知道,看实例很容易理解!

F统计量

 

 要求,这些要达到

数据要求,按一列一列的,所以创建这个数据,然后用F_onewasy()函数去实现!后面的值就是p值。

这是利用statsmodels去实现也能得到方差分析的结果

 

多因素方差分析

r方

做个线性回归就出来:

 

 

 加上交互项

 

 两连续变量!

 

 相关分析:

散点图:看是否线性。是否相关。先大概看看!

相关系数介绍,用最多pearson。

 

相关系数的计算

相关系数与相关性之间关系

相关系数的检验

看看代码:

散点图

计算相关系数

 

一般不去相关系数的可信度,只要样本量足。

 分类和分类的比较

分类变量相关关系

列联表分析

经理脾气和天气是否相关:无

 

 

有相关:

违约与破产之间的分析,行轮廓是比较列

                                       列轮廓是比较行 如果相差不大,就说明影响不大。这是比较粗糙的分析。不严谨!

 

用稍微严谨的方法:

假设检验

卡方检验1:

卡方检验2:

python的实现:

这是频率表!

数据是一个交叉表:

 

 

 以上都是总体为正太分布的。。。。。。。

注意一下 :非正态可以考虑变成正太分布。

     :样本量不可太小,但是也不能太大。这个公式 上下都有N,样本量大了会影响统计量T的变化!