线性回归与最小二乘法
回归分析是关于因变量和自变量之间相关性的一种研究,因变量呢,我们常记做Y,然后它是我们感兴趣的一个研究的问题,比如说借款人是否坏客户,X是可能对Y有影响的一些自变量。这个设定一方面是基于我们的经验,就是哪一些自变量会对应变量可能有影响,另一方面呢,是基于我们对数据的一种可获取性,就比如说我手上的数据资源有这些,那我把它选过来作为一个自变量。线性回归模型式子为。去求解模型最常用的的一个方法叫做最小二乘估计,它的思想就是求一个使得实际值与模型估计值之差达到最小的值,将其作为参数估计值。因变量Y是一个连续型的,或者说他是一个定量的数据,我们就要用线性回归分析,然后这个式子的右边呢,我们可以看到X1到Xp呢,就是自变量。那p就是他的维度,就是一共有几个自变量,然后X和Y呢,一般是可以观测到的,就是我们可以获取样本数据的,β0到β1到βp这一些我们把它们叫做回归系数,它们都是未知的参数。需要我们通过样本数据去进行估计,那β0我们一般叫做截距系数,β1到βp呢,叫做斜率或者偏斜率系数,我们的核心的工作或者任务呢,就是要去通过样本数据把这一些β给求解出来,然后我们看到后边还有一个变量,叫做ε,它是随机的误差项,它是观测不到的,它是除了自变量X之外,对Y有影响的那些因素的一个集合,然后我们假定ε是一个随机变量,它会来自于一定的分布,对它最常见的一个假定呢,是它来自于正态分布,
,一旦做了这个假定啊,我们可以看一下对这个回归方程式子的左边和右边同时求期望的话,你就会得到这么一个公式:
,因为ε就是随机误差项的,期望是零,所以就没有了,我们往往都会假定自变量X并不是随机变量,
就是Y的均值。β0含义就是我所有的自变量同时为零时Y的一个平均水平,其他斜率系数的含义就是指自变量对应变量Y的一种影响。严谨地说,当固定其他因素不变的时候,“这个自变量”增加一个单位,Y的平均水平增加“这个自变量”估计参数个单位,这个就是斜率系数的具体的含义了。我们要通过样本数据去估计这些未知的回归系数,是为了去了解到X对Y的一个影响的程度,对他做一个解读。关于线性回归模型,这里面线性两个字的含义经常被误解,就是什么叫线性,它是指呢Y对回归系数β是线性的。比如
这是一个线性回归模型,
这是不是一个线性模型呢?因为看到Y对X已经是非线性的了,有X2,但这仍然是线性回归,因为Y对这个未知的回归系数β1是线性的。然后咱们再来看一个例子啊,比如
它是不是一个线性回归模型呢?它就不是了,因为Y对β1现在不是线性的了,你说为什么非要Y对这个未知系数β是线性的?这涉及到这个求解系数的求解的方法,以及他的一些理论性质,所以我们讨论的这个线性回归模型以及相应的最小二乘估计呢,是要求应变量Y对回归系数是一个线性的。就是到底什么叫一个线性模型,是指Y对β是一个线性的。我们获取到的数据就是X和Y,我获取到的是一对一对,把它画在这个图上就是一个平面上的一些散点,线性回归模型或者最小二乘估计的任务是什么?假如只有一个自变量,核心的任务是找到这样的一条直线,它能很好的去拟和这些散点啊,这个拟和是一个比较这个笼统的词,很好的拟合散点从直觉上来说,所有的点都靠近这条线就叫拟合的很好,你可以画出很多条线来,那最小二乘估计想找到什么样的线呢。就是所有的点到直线在Y轴上的距离的平方和最小!找到的这条直线就叫做一个最小二乘直线,当然,你也可以根据别的准则找别的线完全没有问题,那我们最常用的办法就这么找这条线去拟合所有散点。
这个就是我最小二乘线的直线的方程了,这个方程大家注意它有这么几个特点,第一这
和
是已经求解出来的了,它们完全可以通过X和Y观测到的样本数据去把它求解出来:
,然后它们分别是这条直线的截距和斜率,你可以看到X是没变化的,它头上也没有加帽子,它到直线上再到X轴上,X是不变的,Y是拟合的,加了一个帽子。这条直线左边是
,叫估计值啊,或者叫预测值,这两个字常被混用,有的这个教科书上会区分的非常严格,就是估计值或预测值。实际上测值Yi,那么
这个量叫残差。ε叫误差,观测不到,
是对ε的一个估计,就是残差,是对误差的一种估计,代表了这条直线拟合的程度的好坏,那如果
都特别大,那说明我条直线拟合的也不好,散点都离这条直线挺远的,那如果
或者说绝对值很小啊,那好消息我的点都离这条直线很近,所以综合来看呢,
最小化的这个量它实际上就是最小化
,这个量叫做一个残差平方和,你可以看到最小二乘估计找到的这条直线,它的特点就是使得残差平方和最小。参数这个估计出来了,我们怎么去解读它,比如我估计出来这个方程
,比如说我把数据带进去算出来了β0等于5000,然后β1把数据带进去了,算出来了等于0.3,它的解读呢,首先β0是截距,我们很少解读截距,你要说严格解读起来就是X等于零的时候,也就是说我这个月我没收入的时候,我的消费还是5000,它就是这个含义,然后0.3的解读呢,是指我的收入,每增加一个单位,我的消费就会高0.3个单位,他是这么一个含义。
最小二乘的英文是OLS,Ordinary least squares ,就是最小二乘估计啊,或者叫普通最小二乘法。