线性回归(最小二乘法和梯度下降)
一、定义与公式
线性回归(Linear regression)是一种线性模型,利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。
- 具体来说,利用线性回归模型,可以从一组输入变量x的线性组合中,计算输出变量y。
- 只有一个自变量的情况称为单变量回归,大于一个自变量情况的叫做多元回归
那么怎么理解呢?我们来看几个例子
- 期末成绩:0.7×考试成绩+0.3×平时成绩
- 房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率
上面两个例子,我们看到特征值与目标值之间建立的一个关系,这个可以理解为回归方程。
多元线性回归
如果有两个或两个以上的自变量,这样的线性回归分析就成为多元线性回归。
实际问题中,一个现象往往是受到多个因素影响的,所以多元线性回归比一元线性回归的实际应用更广。
二、最小二乘法
线性回归模型的关键就是确定w和b。w和b学得之后,模型也就确定了。
那么该如何确定w和b?
假设输入特征只有一个。
使f(x)与y之间的均方误差最小
试图找到一条直线,使得所有样本到直线上的欧式距离之和最小,这就是最小二乘法。
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”(least square method)。
它的主要思想就是选择未知参数,使得理论值与观测值只差的平方和达到最小。
2.1 公式推导
使得
最小化的过程,称为线性回归模型的“最小二乘参数估计”,分别对w和b求偏导。
推导过程参见南瓜书:https://datawhalechina.github.io/pumpkin-book/#/chapter3/chapter3