统计学任务4打卡

线性回归:

  就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候,就能够预测出一个简单的值。线性回归中最常见的就是房价的问题。一直存在很多房屋面积和房价的数据,如下图所示:

在这种情况下,就可以利用线性回归构造出一条直线来近似地描述放假与房屋面积之间的关系,从而就可以根据房屋面积推测出房价。

2 线性回归的函数模型

通过线性回归构造出来的函数一般称之为了线性回归模型。线性回归模型的函数一般写作为:

3 线性回归模型的代价函数

通过线性回归算法,我们可能会得到很多的线性回归模型,但是不同的模型对于数据的拟合或者是描述能力是不一样的。我们的目的最终是需要找到一个能够最精确地描述数据之间关系的线性回归模型。这是就需要用到代价函数。代价函数就是用来描述线性回归模型与正式数据之前的差异。如果完全没有差异,则说明此线性回归模型完全描述数据之前的关系。如果需要找到最佳拟合的线性回归模型,就需要使得对应的代价函数最小,相关的公式描述如下:

Hypothesis,表示的就是线性回归模型Cost Function,代价函数Goal,就是要求对应的代价函数最小4 线性回归模型求解

假设在线性回归模型中仅仅只存在一个函数,就是斜率参数。即theta-0是0。如果存在如下的数据:

图中对应的3个点分别为(1,1),(2,2),(3,3)那么很明显,最佳线性回归模型就是h(x)=x。如果通过实验证明呢?我们画出在theta-1处于不同值的代价函数。

5 线性回归模型的特点:

1,建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。

2,可以根据系数给出每个变量的理解和解释。

3,对异常值很敏感。

卡方分布:

  设 X1,X2,......Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ2=X12+X22+......+Xn2所服从的分布为自由度为 n 的χ2分布.[1] 

卡方分布的 期望E(χ2)=n,方差D(χ2)=2n

卡方分布:若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布N(0,1)(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为 分布(chi-squaredistribution)。其中参数n称为自由度(通俗讲,样本中独立或能自由变化的自变量的个数,称为自由度),正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个分布。记为 分布的均值为自由度 n,记为 E() = n;分布的方差为2倍的自由度(2n),记为 D() = 2n。

 

从分布图可以看出:分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数 n 的增大,分布趋近于正态分布;随着自由度n的增大,分布向正无穷方向延伸(因为均值n越来越大),分布曲线也越来越低阔(因为方差2n越来越大)。

方差分析:

  

实验中,我们要考察的指标为试验指标,影响的条件成为因素。由于各种因素的影响,使得测试数据结果呈波动状,包含不可控的随机因素、人为调控的可控因素

 

应用条件:

1、各样本是相互独立的随机样本

2、各样本均来自正态分布总体

3、各样本的总体方差相等,即具有方差齐性

 

单因素方差分析(one-way ANOVA

试验参数

假设因素A有s个水平A1,A2…..,As,每个水平下进行nj次独立试验,样本总数n

 

 观测变量总离差平方和 = 组间离差平方和 + 组内离差平方和,表述为:SST=SSA+SSE

组内差异——测量误差、个体差异

        SSE(误差平方和)各个水平下,样本观察值与样本均值差异的平方和

        组内自由度  dfe=n-s

组间差异——不同实验条件处理

        SSA(因素A的效应平方和)各个水平下样本平均值与数据总平均差异的平方和

        组间自由度  dfa=s-1

均方 = 离差平方和 / 自由度   SA=SSA/dfa   SE=SSE/dfe

 

 

单因素方差分析基本步骤

1、提出原假设:H0——无差异;H1——有显著差异

2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验

拒绝H0

F>F0.05(dfa,dfe)

组间均方>>组内均方,来自不同正态总体

接受H0

F<F0.05(dfa,dfe)

组间均方<<组内均方,来自相同正态总体

3、计算检验统计量的观测值和概率P值

4、给定显著性水平,并作出决策

 

方差齐性检验      ——对控制变量不同水平下各观测变量总体方差是否相等进行检验

控制变量不同水平下观测变量总体方差无显著差异是方差分析的前提要求。

若不满足,便不能认为各总体分布相同。

 

多重比较检验      ——控制变量的不同水平对观测变量的影响程度如何

实现对各个水平下观测变量总体均值的逐对比较

 

 

多(双)因素方差分析

 

单独效应   ——其他因素固定,某一因素不同水平之间均数的差别

交互效应   ——某因素的单独效应,随另一因素水平而变化,且不能用随机误差解释

试验参数

        假设因素A有r个水平(A1,A2…..,Ar),因素B有s个水平(B1,B2……,Bs),每个ABzuhe进行t次独立试验,样本总数n

 

所有数据平均值μ,αi是水平Ai的效应,βj是水平Bj的效应,γij表示Ai与Bj的交互作用

同样计算离差平方和SST=SSA+SSE+SSB+SSAB

SSE(误差平方和)每个(ij)水平下测量值与均值差异的平方和

SSASSB(因素A\B的效应平方和)、SSAB(AB交互效应平方和)

 

例如双因素方差分析的基本步骤

        1、提出原假设:

 

因素A(r)

因素B(s)

AB交互作用(rs)

无显著差异

H01

H02

H03

有显著差异

H11

H12

H13

 

        2、F值检验

拒绝H01

F0.05(dfa,dfe)<FA

因素A不同存在显著差异

拒绝H02

F0.05(dfb,dfe)<FB

因素B不同存在显著差异

拒绝H03

F0.05(dfab,dfe)<FAB

因素A与B存在交互效应

posted @ 2019-04-08 19:21  zhgmen  阅读(434)  评论(0编辑  收藏  举报