1、假设检验
做出一个假设,去验证。
需要设定置信度,如95%
两类错误:
两类错误是概率
原假设一般为等式。
样本量的影响:
步骤:假设—置信度—收集数据—计算p值判断
T检验
拒绝域和接受域。
单样本T检验,没有数据,这个课程没有数据,很遗憾,一会在找数据从新做一遍!
两变量
男生和女生的月均支出是否有差异?
方差是否相等?F检验!
开始,t统计量!
数据说明,目的为筛选变量
方差分析
教育程度对信用卡支出是否有差别?
总变异说明:
组内变异:
组间变异:
自己理解:总变异:(单个样本的均值 -总体样本的均值)的平方和
组内变异: 这个组(样本的值- 这个样本所在组的均值)的平方和 + 另一组(样本的值- 这个样本所在这个组的均值)平方和
组间变异:(每个组的均值-总体的平均值)的平方和
我能理解,别人能不能理解我不知道,看实例很容易理解!
F统计量
要求,这些要达到
数据要求,按一列一列的,所以创建这个数据,然后用F_onewasy()函数去实现!后面的值就是p值。
这是利用statsmodels去实现也能得到方差分析的结果
多因素方差分析
r方
做个线性回归就出来:
加上交互项
两连续变量!
相关分析:
散点图:看是否线性。是否相关。先大概看看!
相关系数介绍,用最多pearson。
相关系数的计算
相关系数与相关性之间关系
相关系数的检验
看看代码:
散点图
计算相关系数
一般不去相关系数的可信度,只要样本量足。
分类和分类的比较
分类变量相关关系
列联表分析
经理脾气和天气是否相关:无
有相关:
违约与破产之间的分析,行轮廓是比较列
列轮廓是比较行 如果相差不大,就说明影响不大。这是比较粗糙的分析。不严谨!
用稍微严谨的方法:
假设检验
卡方检验1:
卡方检验2:
python的实现:
这是频率表!
数据是一个交叉表:
以上都是总体为正太分布的。。。。。。。
注意一下 :非正态可以考虑变成正太分布。
:样本量不可太小,但是也不能太大。这个公式 上下都有N,样本量大了会影响统计量T的变化!