机器学习疑难---1、什么是多元线性回归
机器学习疑难---1、什么是多元线性回归
一、总结
一句话总结:
多元线性回归就是 用多个x(变量或属性)与结果y的关系式来描述一些散列点之间的共同特性。
也可以逐词来理解:多元就是有多个变量或属性,线性就是一条线,回归就是输入变量与输出变量均为连续变量的预测问题
二、什么是多元线性回归
博客对应课程的视频位置:
1、分类和回归任务的区别
我们可以按照任务的种类,将任务分为回归任务和分类任务。那这两者的区别是什么呢?按照较官方些的说法,输入变量与输出变量均为连续变量的预测问题是回归问题,输出变量为有限个离散变量的预测问题成为分类问题。
通俗一点讲,我们要预测的结果是一个数,比如要通过一个人的饮食预测一个人的体重,体重的值可以有无限多个,有的人50kg,有的人51kg,在50和51之间也有无限多个数。这种预测结果是某一个确定数,而具体是哪个数有无限多种可能的问题,我们会训练出一个模型,传入参数后得到这个确定的数,这类问题我们称为回归问题。预测的这个变量(体重)因为有无限多种可能,在数轴上是连续的,所以我们称这种变量为连续变量。
我们要预测一个人身体健康或者不健康,预测会得癌症或者不会得癌症,预测他是水瓶座,天蝎座还是射手座,这种结果只有几个值或者多个值的问题,我们可以把每个值都当做一类,预测对象到底属于哪一类。这样的问题称为分类问题。如果一个分类问题的结果只有两个,比如"是"和"不是"两个结果,我们把结果为"是"的样例数据称为"正例",将结果为"不是"的样例数据称为"负例",对应的,这种结果的变量称为离散型变量。
2、什么是多元线性回归
我们知道y=ax+b是一元一次方程,_$y=ax_1+bx_2+c_$是二元一次方程。其中,"次"指的是未知数的最大幂数,"元"指的是表达式中未知数的个数(这里就是x的个数)。那么"多元"的意思可想而知,就是表达式中x(或者叫自变量,也叫属性)有很多个。
当b=0时,我们说y=ax,y和x的大小始终符合y/x=a,图像上任意一点的坐标,y值都是x值的a倍。我们把这种横纵坐标始终呈固定倍数的关系叫做"线性"。线性函数的图像是一条直线。所以我们知道了多元线性回归函数的图像一定也是一条直线。
现在我们知道了多元线性回归的多元和线性,而回归的概念我们在我们在上面中有讲述,所以多元线性回归就是:用多个x(变量或属性)与结果y的关系式来描述一些散列点之间的共同特性。
这些x和一个y关系的图像并不完全满足任意两点之间的关系(两点一线),但这条直线是综合所有的点,最适合描述他们共同特性的,因为他到所有点的距离之和最小也就是总体误差最小。
所以多元线性回归的表达式可以写成:
$$ y= w_0x_0 + w_1x_1 + w_2x_2 + ... + w_nx_n$$
我们知道y=ax+b这个线性函数中,b表示截距。我们又不能确定多元线性回归函数中预测出的回归函数图像经过原点,所以在多元线性回归函数中,需要保留一项常数为截距。所以我们规定 _$ y= w_0x_0 + w_1x_1 + w_2x_2 + ... + w_nx_n _$中,x0=1,这样多元线性回归函数就变成了: _$ y= w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n _$,w0项为截距。
如果没有w0项,我们 _$ y= w_0x_0 + w_1x_1 + w_2x_2 + ... + w_nx_n _$ 就是一个由n+1个自变量所构成的图像经过原点的直线函数。那么就会导致我们一直在用一条经过原点的直线来概括描述一些散列点的分布规律。这样显然增大了局限性,造成的结果就是预测出的结果函数准确率大幅度下降。
有的朋友还会纠结为什么是x0=1而不是x2,其实不管是哪个自变量等于1,我们的目的是让函数 _$ y= w_0x_0 + w_1x_1 + w_2x_2 + ... + w_nx_n _$ 编程一个包含常数项的线性函数。选取任何一个x都可以。选x0是因为他位置刚好且容易理解。
参考:https://blog.csdn.net/weixin_39445556/article/details/81416133