线性回归全解析:概念、方法、评估、检验、应用与局限
一、基本概念
-
定义
- 线性回归是一种统计分析方法,用于研究一个或多个自变量(解释变量)与一个因变量(被解释变量)之间的线性关系。它试图找到一条最佳拟合直线(在简单线性回归中)或超平面(在多元线性回归中),使得因变量的预测值与实际值之间的误差最小。
- 简单线性回归模型的数学表达式为:\(y = \beta_0+\beta_1x+\epsilon\),其中\(y\)是因变量,\(x\)是自变量,\(\beta_0\)是截距,\(\beta_1\)是斜率,\(\epsilon\)是误差项,代表了模型无法解释的部分。
-
变量类型
- 自变量(Independent Variable):也称为解释变量或预测变量。在简单线性回归中有一个自变量,如在预测房价时,房子的面积可以作为自变量。在多元线性回归中有多个自变量,例如除了房子面积,还可以包括房龄、房间数量等。
- 因变量(Dependent Variable):也称为响应变量。它是我们想要预测或解释的变量,如上述例子中的房价。
二、估计方法
-
最小二乘法(Ordinary Least Squares,OLS)
- 原理:最小二乘法的目标是找到一组系数(\(\beta_0\)和\(\beta_1\)等),使得残差平方和(SSE)最小。残差是观测值\(y_i\)与预测值\(\hat{y}_i\)之间的差异,即\(e_i = y_i-\hat{y}_i\),SSE的计算公式为\(\sum_{i = 1}^{n}e_{i}^{2}=\sum_{i = 1}^{n}(y_{i}-\hat{y}_{i})^{2}\)。
- 对于简单线性回归,通过求解以下方程组来得到\(\beta_0\)和\(\beta_1\)的估计值:
- \(\hat{\beta}_{1}=\frac{\sum_{i = 1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sum_{i = 1}^{n}(x_{i}-\bar{x})^{2}}\)
- \(\hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1}\bar{x}\),其中\(\bar{x}\)和\(\bar{y}\)分别是自变量和因变量的样本均值。
-
梯度下降法(Gradient Descent)
- 这是一种优化算法,用于在参数空间中寻找使损失函数(如残差平方和)最小化的参数值。在每次迭代中,根据损失函数对参数的梯度(导数)来更新参数。
- 对于线性回归的损失函数\(J(\theta)=\frac{1}{2m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^{2}\)(其中\(m\)是样本数量,\(h_{\theta}(x)\)是假设函数,\(\theta\)是参数向量,包括\(\beta_0\)和\(\beta_1\)等),更新规则为\(\theta_j:=\theta_j-\alpha\frac{\partial J(\theta)}{\partial\theta_j}\),其中\(\alpha\)是学习率,控制每次迭代的步长。
三、模型评估指标
- 均方误差(Mean Squared Error,MSE)
- 计算公式为\(MSE=\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\hat{y}_{i})^{2}\),它衡量了模型预测值与真实值之间的平均平方误差,MSE的值越小,模型的拟合效果越好。
- 均方根误差(Root Mean Squared Error,RMSE)
- \(RMSE=\sqrt{MSE}\),它与MSE的关系紧密,单位与因变量相同,更直观地反映了预测误差的大小。
- 平均绝对误差(Mean Absolute Error,MAE)
- 计算公式为\(MAE=\frac{1}{n}\sum_{i = 1}^{n}\vert y_{i}-\hat{y}_{i}\vert\),它对误差取绝对值后求平均,相比于MSE和RMSE,MAE对异常值不太敏感。
- 可决系数(Coefficient of Determination,\(R^{2}\))
- \(R^{2}=1-\frac{\sum_{i = 1}^{n}(y_{i}-\hat{y}_{i})^{2}}{\sum_{i = 1}^{n}(y_{i}-\bar{y})^{2}}\),它衡量了模型对因变量变异的解释程度,取值范围在0到1之间,\(R^{2}\)越接近1,模型的拟合优度越高。
四、假设检验
- 系数的显著性检验
- 对于线性回归模型中的系数\(\beta_j\),我们通常检验其是否显著不为零。原假设为\(H_0:\beta_j = 0\),备择假设为\(H_1:\beta_j\neq0\)。
- 常用t检验,计算统计量\(t=\frac{\hat{\beta}_{j}-0}{SE(\hat{\beta}_{j})}\),其中\(SE(\hat{\beta}_{j})\)是\(\hat{\beta}_{j}\)的标准误差。根据自由度\(n - p - 1\)(\(n\)是样本数量,\(p\)是自变量个数)和选定的显著性水平(如\(\alpha = 0.05\)),查t分布表来确定是否拒绝原假设。如果拒绝原假设,说明自变量\(x_j\)对因变量\(y\)有显著的线性影响。
- 整体模型的显著性检验(F检验)
- 原假设为\(H_0:\beta_1=\beta_2=\cdots=\beta_p = 0\),即所有自变量的系数都为零,模型没有解释能力。
- 计算F统计量\(F=\frac{(SSR/p)}{(SSE/(n - p - 1))}\),其中SSR是回归平方和,SSE是残差平方和。根据分子自由度\(p\)和分母自由度\(n - p - 1\)以及显著性水平查F分布表来判断是否拒绝原假设。如果拒绝原假设,说明模型整体是显著的,至少有一个自变量对因变量有显著影响。
五、多重共线性
- 定义
- 多重共线性是指在多元线性回归模型中,自变量之间存在较强的线性关系。例如,在预测汽车油耗时,汽车的重量和排量可能存在高度相关性。
- 影响
- 会导致系数估计的不稳定,即系数的标准误差增大,使得t检验可能无法正确判断自变量的显著性。还可能导致系数的符号与实际经济意义不符等问题。
- 检测方法
- 可以计算自变量之间的相关系数矩阵,若相关系数的绝对值接近1,则存在多重共线性。也可以使用方差膨胀因子(VIF)来检测,\(VIF_j=\frac{1}{1 - R_{j}^{2}}\),其中\(R_{j}^{2}\)是自变量\(x_j\)对其他自变量进行回归得到的可决系数。一般认为VIF大于10时,存在严重的多重共线性。
- 解决方法
- 可以剔除引起多重共线性的自变量,或者采用主成分回归、岭回归等方法来缓解多重共线性的影响。
六、模型的应用与局限性
- 应用场景
- 在经济学中,用于预测经济指标,如消费、投资等。在自然科学领域,可用于分析实验数据之间的关系,如物理实验中的变量关系。在商业领域,用于预测销售额、客户满意度等。
- 局限性
- 线性回归假设自变量和因变量之间是线性关系,如果实际关系是非线性的,模型的拟合效果会很差。对异常值比较敏感,异常值可能会极大地影响模型的参数估计和拟合效果。并且它假设误差项满足正态分布、同方差等条件,如果这些假设不成立,会影响模型的准确性和可靠性。