回归(Regression)

对于连续型数据，如果我们要用它来做预测的话，通常的方就是回归，这一节主要讲解线性回归，局部加权线性回归，以及lasso回归。

回归一词的来历：这里有两个例子可以很好的用来说明回归，一，达尔文根据上一代豌豆的尺寸来预测下一代豌豆尺寸的大小。二，Galton发现，如果双亲的身高比平均高度高，那么他们的子女也倾向于比平均身高高，但尚不及双亲，这里，孩子的身高向着平均高度回退。

这里有一个例子：数据集图示

现在，我们需要拟合一条与数据相差不大的线来拟合数据，从而对未知数据进行预测，在这里的话，我们需要求出一个回归方程对数据进行拟合，即：

y=x1*w1+x2*w2

进行线性回归的话通常使用这种方式。假设输入数据是矩阵X，回归系数是w,那么预测结果Y=X.T*w,如上图所示，我们已经数据x以及结果y已有了，那么如何求解上式中的回归系数w呢？或者说如何得到使误差最小的w，在这里我们使用平方误差，对于n个输入数据，我们求得n个(y-X.T*w)的平方和，这里X.T是矩阵的转置。用矩阵表示即为：

(y-Xw).T*(y-Xw),

通过对w求导，我们可以估计出w的最优解

w'=(X.T*X).I*X.T*y

最后求出最佳拟合直线，如下：

在这里我们已经做出最佳拟合直线了，如何判断模型的好快呢，也就是说我们需要计算预测序列以及真实序列y的匹配程度，在这里我们通过计算相关系数来比较

可以得到，预测值和真实值之间的相关系数是0.98，结果还行，但是数据中是否还存在其他相关模式，下一节我们讲解局部线性回归

posted @ 2017-06-07 20:40 cris_tina 阅读(480) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

cris_tina

回归(Regression)

公告