普通最小二乘(OLS)及相关统计检验指标
线性最小二乘
线性最小二乘的思想:通过对残差平方和的最小化来求解线性模型的参数
\[S = \sum^n_{i=1}\left( \hat y_i - y_i \right)^2
\]
当S最小时,线性模型 \(y = ax+b\) 中的参数a, b即为我们所求的值:
\[\mathop{\arg \min }\limits_{a,b}\sum^n_{i=1}\left( \hat y_i - y_i \right)^2=\mathop{\arg \min }\limits_{a,b}\sum^n_{i=1}\left( ax_i+b - y_i \right)^2
\]
根据极值理论可知:当S取极值时,S对a和b的偏导均为0,因此,我们可以将两个方程联立,得到一组二元一次方程,进而求出假设模型的参数:
\[\left\{\begin{matrix}
\frac{\partial S}{\partial a}=0 \\ \frac{\partial S}{\partial b}=0
\end{matrix}\right. \to
\left\{\begin{matrix}
a=\dots \\ b=\dots
\end{matrix}\right.
\]
T统计量
T检验,也称为 student t 检验 (Student’s t test),用于对两个总体均值差的检验,因为当 F 分布在自由度趋向于无穷大时,近似于正态分布,所以 T 检验通常用于两个正态分布均值差的检验
T统计量 (T-statistic) 是 T-test 做假设检验时用到的检验统计量,通过 T-statistic 的值可以计算出 P-value,从而判断是否拒绝原假设
P值 (P-value)
P值,也就是常见到的 P-value。P 值是一种概率,指的是在 H0 假设为真的前提下,样本结果出现的概率。如果 P-value 很小,则说明在原假设为真的前提下,样本结果出现的概率很小,甚至很极端,这就反过来说明了原假设很大概率是错误的
F统计量
F检验(F-test),最常用的别名叫做联合假设检验(joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在原假设(null hypothesis, H0)之下,统计值服从F-分布的检验
F检验比T检验强的地方在于,它可以一次性检验多个假设。由于使用方式与T检验雷同,因此其重点在于如何构造F统计量,该值可由已解释方差与未解释方差的比值算得,即:
\[F = \frac{explained-variance}{unexplained-variance}=\frac{(SSR_r-SSR_{ur})/q}{SSR_{ur}/(n-k-1)}
\]
另外,F统计量与t统计量有一个非常喜欢用在考试里的性质:\(F=t^2\)