从统计学看线性回归（1）——一元线性回归

1. 一元线性回归模型的数学形式

2. 回归参数β₀, β₁的估计

3. 最小二乘估计的性质

　　线性性

　　无偏性

　　最小方差性

一、一元线性回归模型的数学形式

　　一元线性回归是描述两个变量之间相关关系的最简单的回归模型。自变量与因变量间的线性关系的数学结构通常用式（1）的形式：

y = β₀ + β₁x + ε (1)

其中两个变量y与x之间的关系用两部分描述。一部分是由于x的变化引起y线性变化的部分，即β₀ + β₁x，另一部分是由其他一切随机因素引起的，记为ε。该式确切的表达了变量x与y之间密切关系，但密切的程度又没有到x唯一确定y的这种特殊关系。

　　式（1）称为变量y对x的一元线性回归理论模型。一般称y为被解释变量（因变量），x为解释变量（自变量），β₀和β₁是未知参数，成β₀为回归常数，β₁为回归系数。ε表示其他随机因素的影响。一般假定ε是不可观测的随机误差，它是一个随机变量，通常假定ε满足：

（2）

对式（1）两边求期望，得

E(y) = β₀ + β₁x, （3）

称式（3）为回归方程。

E(ε) = 0 可以理解为 ε 对 y 的总体影响期望为 0，也就是说在给定 x 下，由x确定的线性部分 β₀ + β₁x 已经确定，现在只有 ε 对 y 产生影响，在 x = x_0， ε = 0即除x以外其他一切因素对 y 的影响为0时，设 y = y₀，经过多次采样，y 的值在 y₀上下波动（因为采样中 ε 不恒等于0），若 E(ε) = 0 则说明综合多次采样的结果， ε 对 y 的综合影响为0，则可以很好的分析 x 对 y 的影响（因为其他一切因素的综合影响为0，但要保证样本量不能太少）；若 E(ε) = c ≠ 0，即 ε 对 y 的综合影响是一个不为0的常数，则E(y) = β₀ + β₁x + E(ε)，那么 E(ε) 这个常数可以直接被 β₀捕获，从而变为公式（3）；若 E(ε) = 变量，则说明 ε 在不同的 x 下对 y 的影响不同，那么说明存在其他变量也对 y 有显著作用。

Var(ε) = σ²：因为所有的样本点并不是完全在回归直线上（即 x 与 y 的关系不是确定的函数关系），所以 ε 的方差一定不为0，Var(ε) = σ²的意义为在不同 x 下， ε 对 y 产生同样的波动，是为了后续计算方便，若 ε 的方差对 y 产生的波动随 x 变化，那么需要分析这种变化及其产生的一系列问题。

　　一般情况下，对所研究的某个实际问题，获得n组样本观测值(x₁, y₁),(x₂, y₂),...,(x_n, y_n),如果它们符合模型（1），则

y_i = β₀ + β₁x_i + ε_i, i = 1, 2, ..., n (4)

由式（2）有

i = 1, 2, ..., n. (5)

　　通常还假定n组数据是独立观测的，因而y₁,y₂,...,y_n与ε₁,ε₂,...,ε_n都是相互独立的随机变量，而x_i(i = 1, 2, ..., n)是确定性变量，其值是可以精确测量和控制的。称式（4）为一元线性回归模型。

　　对式（4）两边分别求数学期望和方差，得

E(y_i) = β₀ + β₁x_i, Var(y_i) = σ², i = 1, 2, ..., n (6)

可知。

个人理解，ε_i 并不是同分布，因为并不知道他们服从什么分布，从期望和方差相等推不出同分布，虽然同分布下期望和方差一定相等。

　　E(y_i) = β₀ + β₁x_i从平均意义上表达了变量y与x的统计规律性。在应用上，人们经常关系的正是这个平均值。

　　在实际问题中，为了方便对参数β₀，β₁作区间估计和假设检验，还假定模型（1）中误差项ε遵从正态分布，即

ε ～ N(0,σ²), (7)

（才会满足 ε_i同分布）

　　由于 ε₁,ε₂,...,ε_n是 ε 的独立同分布的样本，因而有

ε_i～ N(0,σ²), i = 1, 2, ..., n (8)

在ε_i遵从正态分布的假定下，进一步有随机变量y，也遵从正态分布

y_i ～ N(β₀ + β₁x_i, σ²), i = 1, 2, ..., n (9)

二、回归参数β₀, β₁的估计

普通最小二乘估计（ordinary least squares estimate, OLSE）

　　为了得到回归系数的理想估计值，使用OLSE（因为OLSE和方差都是差方和的形式）。对每一个样本观测值（x_i, y_i），最小二乘法考虑观测值y_i与其回归值的离差越小越好，综合地考虑n个离差值，定义离差平方和为

（10）

可以看到其回归值是期望值，这里使用到条件 E(ε) = 0.

　　最小二乘法，就是寻找参数β₀，β₁的估计值，使式（10）定义的离差平方和达极小，即寻找满足

（11）

依照式（11）求出的就称为回归参数β₀，β₁的最小二乘估计。称

（12）

为y_i(i = 1, 2,...,n)的回归拟合值，简称回归值或拟合值。称

（13）

为y_i(i = 1, 2, ..., n)的残差。

离差和残差：

在本文中离差和残差的公式都是真实值与估计值之间的差，但是，离差是在回归方程得到之前定义的，不能直接得到，通过离差平方和最小来求得回归系数从而得到回归方程，可以将离差看作是风险程度，使离差平方和最小即为使总风险最小。残差是在回归方程得到后定义的，可以直接得到具体数值，若没有回归方程就不存在残差的概念，残差平方和度量了n个样本点观测值到回归直线的距离大小，可以视为随机误差的效应。残差用于研究模型的适用性，也是探测是否违背基本假设的评测量之一。

　　从式（11）中求出是一个求极值问题。由于Q是关于的非负二次函数，因而它的最小值总是存在的，利用微积分求极值原理，应满足下列方程组

（14）