回归(Regression)

    对于连续型数据,如果我们要用它来做预测的话,通常的方就是回归,这一节主要讲解线性回归,局部加权线性回归,以及lasso回归。

   回归一词的来历:这里有两个例子可以很好的用来说明回归,一,达尔文根据上一代豌豆的尺寸来预测下一代豌豆尺寸的大小。二,Galton发现,如果双亲的身高比平均高度高,那么他们的子女也倾向于比平均身高高,但尚不及双亲,这里,孩子的身高向着平均高度回退。

   这里有一个例子:数据集图示

             

    现在,我们需要拟合一条与数据相差不大的线来拟合数据,从而对未知数据进行预测,在这里的话,我们需要求出一个回归方程对数据进行拟合,即:

                                                                  y=x1*w1+x2*w2

    进行线性回归的话通常使用这种方式。假设输入数据是矩阵X,回归系数是w,那么预测结果Y=X.T*w,如上图所示,我们已经数据x以及结果y已有了,那么如何求解上式中的回归系数w呢?或者说如何得到使误差最小的w,在这里我们使用平方误差,对于n个输入数据,我们求得n个(y-X.T*w)的平方和,这里X.T是矩阵的转置。用矩阵表示即为:

                                                                  (y-Xw).T*(y-Xw),

通过对w求导,我们可以估计出w的最优解

                                                                  w'=(X.T*X).I*X.T*y

 

最后求出最佳拟合直线,如下:

               

    在这里我们已经做出最佳拟合直线了,如何判断模型的好快呢,也就是说我们需要计算预测序列以及真实序列y的匹配程度,在这里我们通过计算相关系数来比较

              

  可以得到,预测值和真实值之间的相关系数是0.98,结果还行,但是数据中是否还存在其他相关模式,下一节我们讲解局部线性回归

posted @ 2017-06-07 20:40  cris_tina  阅读(480)  评论(0编辑  收藏  举报