机器学习原理与算法（二）监督学习之回归问题

正式内容开始前，我们首先约定本系列文章中所使用的各种符号：

$m$: 训练集合中，训练样本的总数目。

$x$: 输入变量，也称为特征(feature)。

$y$: 输出变量，也称为目标变量(target)。

$n$: 模型中，特征的数量。

$(x, y)$: 即为一个训练样本。

$x^{(i)}$: 训练集合中第$i$个样本对应的输入变量，注意，这里$i$是上标，不是指数。

$y^{(i)}$: 训练集合中第$i$个样本对应的输出变量，同样，这里的$i$是上标，不是指数。

这些符号将贯穿整系列博文，如有遗忘务必随时回来翻看。

本章索引：

本章将讨论监督学习中的第一个问题 - 回归问题。首先，用一个例子引出监督学习中的回归问题；然后，从最简单的线性回归开始，介绍解决这类问题所用的两种方法：基于迭代的梯度下降和基于闭式推导的标准方程；再次，介绍一类不需要确定参数模型的非参数学习方法；最后，从概率学角度讨论在梯度下降方法中的一些假设，例如线性模型和最小二乘的假设为什么是合理的。

1. 监督学习模型

2. 回归问题定义和线性回归

3. 梯度下降算法解决线性回归问题

4. 用正规方程推导线性回归问题

5. 局部加权线性回归

6. 讨论：一些假设的概率学解释

以一个根据房屋面积预测房屋价格的例子开始，假设我们知道了如下一组房屋面积和房屋价格的关系（数据直接从吴老师公开课中借用过来的），那么我们是不是可以做点什么呢？

面积(平方英尺)	价格(美元)
2104	400
1416	232
1534	315
852	178
1940	240
...	...

1. 监督学习模型：

在有了这些数据后，我们肯定希望能透过这些已知数据找到其中的规律，从而用来预测其他房屋的价格（根据房屋面积）。为了达到这个目的，我们应该如何做呢？直觉上一个合理的方法是：

(1). 将这组训练集合提供给学习算法，用机器学习算法对它们进行训练。

(2). 算法生成一个映射，用$h$来表示，该映射将变量从输入空间映射到输出空间。历史原因，可以称之为假设(hypothesis)。我们常提到的模型(model)就和$h$有很大的关系。

(3). 当我们有新的数据需要处理的时候，就把这组数据输入之前得到的模型$h$，得到预测输出。

上面便是利用监督学习解决实际问题的思路。所谓监督学习，强调的是训练集合提供给学习算法的数据中，既包含了输入变量，又包含了对应于每个输入变量的“正确答案”，也叫输出变量。用图来表示如下：

在监督学习问题中，根据要预测的目标变量的类型，又可以分为两类问题。如果我们要预测的目标变量$y$是连续值，如上例中的价格，那么称这类问题为回归问题(regression problem)；如果我们要预测的目标变量$y$是离散值，如根据房屋面积判断该房屋是普通公寓还是别墅，那么这类问题称为分类问题(classification problem)。

2. 回归问题定义和线性回归

为了讲解算法，我们再添加一个变量，就是房间中卧室的数量。

面积(平方英尺)	卧室数量	价格(美元)
2104	3	400
1600	3	330
2400	3	369
1416	2	232
3000	4	540
...	...	...

用$x_1$表示第一个输入变量-房屋面积，用$x_2$表示第二个输入变量-卧室数量，用$y$表示输出变量-价格。

为了用监督学习算法来预测，一个方法是我们首先应确定如何表示$h$？最简单的表示形式，就是把输出变量$y$表示成输入变量$x_1$和$x_2$的线性函数，即模型$h$是线性模型，那么此时就是线性回归问题。

\begin{equation*}h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2\end{equation*}

我们将这里的$\theta$称为参数(parameters)或权重(weights)。在不会引起混淆的情况下，可以省略掉下标$\theta$，

假设$x_0$=1，可以将线性回归的模型写成如下所示的向量乘积形式。

\begin{equation*} h(x)= \theta_0x_0+\theta_1x_1+\theta_2x_2 = \sum_{i=0}^n \theta_ix_i = \theta^Tx\end{equation*}

其中，

\begin{equation*} \theta = \begin{bmatrix} \theta_0 \\ \theta_1 \\ \theta_2 \end{bmatrix},\ x = \begin{bmatrix} x_0 \\ x_1 \\ x_2 \end{bmatrix} \end{equation*}

定义好了模型$h$的表示形式，随后我们需要做的就是根据已知的训练集合，通过寻找、搜索和学习，来找出合理的模型参数- $\theta$，使得训练集合提供的“正确答案”($y$)与模型预测值($h_\theta(x) = \theta_0+\theta_1x_1+\theta_2x_2$)达到最佳匹配，即模型预测值和观测到的训练集合尽可能的接近。直观上，使得二者之间累计误差最小的参数模型就是最优的参数模型，因此定义一个损失函数$J(\theta)$来衡量$h$与样本值之间的累计误差。

\begin{equation*}J(\theta) = \frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})^2\end{equation*}

根据训练集合，找到一组$\theta$以使得上述损失函数取到最小值，则$h(x)$就确定了，线性回归问题也就得到了解决，所以现在问题转化成了如何最小化损失函数。

3. 梯度下降

求解损失函数的最小值的第一个方法，就是采用搜索算法-梯度下降，它其实是一种迭代算法。对于每个$\theta$，从某个随机的初始值$\theta_j$开始，不断搜索新的$\theta_j$使$J(\theta)$变小，直至收敛在一点。用公式描述如下：

\begin{equation*}\theta_j := \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta)\end{equation*}

$:=$的含义是赋值，不是逻辑上相等的意思。

上述公式的意义简单解释一下：

$\alpha$是一个步长因子，只是一个常数来决定每次迭代的步长幅度，不用过多关心。微分项$\frac{\partial}{\partial\theta_j}J(\theta)$是损失函数$J(\theta)$的梯度。以二次函数以求最小值为例，如下图所示。我们知道极值点处的导数值为0（B点），是我们要到达的目标。如果迭代的初始值随机选在了C点，很明显选取的$\theta$值比目标值大，且此时梯度是正数（单变量实值函数中梯度就是导数，导数在C点的斜率为整），那么下一次的$\theta$应该在当前$\theta$值的基础上减小，即通过减去一个为正数的梯度就可以得到；反之，如果迭代的初始值随机选在了B点，那么选取的$\theta$值比目标值小，且此时梯度为负数，下一次的$\theta$就应该在当前$\theta$值的基础上增大，通即过减去一个负数的梯度就可以得到。如此，梯度下降算法通过不断的迭代使得参数不断趋向并收敛于极值点。

为了实现这个算法，我们需要知道$\frac{\partial}{\partial\theta_j}J(\theta)$是什么。简单起见，我们从只有一个样本的训练集合(即$m=1$)开始，从而在推导过程中省略掉求和号。

\begin{eqnarray*}
\frac{\partial}{\partial\theta_j}J(\theta) & = & \frac{\partial}{\partial\theta_j}\frac{1}{2}(h_\theta(x)-y)^2 \\
& = & 2\cdot\frac{1}{2}(h_\theta(x)-y)\cdot\frac{\partial}{\partial\theta_j}(h_\theta(x)-y) \\ & = & (h_\theta(x)-y)\cdot\frac{\partial}{\partial\theta_j}(\sum_{i=0}^n\theta_ix_i-y) \\ & = & (h_\theta(x)-y)x_j \end{eqnarray*}

如此，我们得到了只有一个样本的训练集合的更新规则：

\begin{equation*}\theta_j:=\theta_j+\alpha(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}\end{equation*}

接下来需要从从单一样本的训练集合推广到普通的多样本训练集合，有几种不同的推广方法：

(1) 批梯度下降

在每一次迭代中，这种方法都会遍历训练集合中的所有的样本，即

\begin{equation*}\theta_j := \theta_j+\alpha\sum_{i=1}^m(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)} \qquad (for \quad every\quad j).\end{equation*}

这种方法称为批梯度下降(batch gradient descent)。它可以确保$\theta$收敛到最小值上。因为$J$实际上就是一个凸二次函数。

(2) 随机梯度下降

Loop {

for i=1 to m, {

$\theta_j:=\theta_j+\alpha(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)} \qquad (for \quad every \quad j).$

}

在这个算法中，从头到尾，我们总共只遍历一遍训练集合。在每一步迭代中，我们只考虑用一个样本来更新参数$\theta$。对比批梯度下降算法，每一次循环都要遍历整个训练集合。当训练集合中样本的数目非常大时，这是很耗时间的操作。随机梯度下降算法通常比批梯度下降算法收敛更快，但它最终可能不是收敛到最小值，而是在最小值附近波动，且大部分情况下足够逼近最小值。这种算法在训练集合的规模很大时，可以高效执行，并获得不错的效果。

梯度下降法是一个最优化算法，通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一，虽然现在已经不具有实用性，但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的，最速下降法越接近目标值，步长越小，前进越慢。（摘自百度百科：梯度下降）

4 标准方程推导

上面的梯度下降算法可以通过迭代的方式最小化损失函数$J$。除此以外，还有另一种思路-- 强行推导$J$相对于$\theta$的偏导数，并让它为零（可导函数在其极值点处，一阶导数值为0）。

开始推导之前，先给出两个定义，帮助我们用矩阵表示法来简化推导过程。

定义1：函数对于矩阵的偏导数

有一个函数$f: \mathbb{R}^{m\times n} \to \mathbb{R}$，它把一个$m\times n$的矩阵映射成一个实数，则我们定义这个函数$f$对于矩阵A的偏导数:

\begin{eqnarray*} \nabla_Af(A)= \begin{bmatrix} \frac{\partial f}{\partial A_{11}} & \cdots & \frac{\partial f}{\partial A_{1n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f}{\partial A_{m1}} & \cdots & \frac{\partial f}{\partial A_{mn}} \end{bmatrix} \end{eqnarray*}

所以，梯度$\nabla_Af(A)$本身是一个$m\times n$的矩阵，它的第$(i,j)$个坐标是$\partial f / \partial A_{ij}$。

例如，$A=\begin{bmatrix} A_{11} & A_{12} \\ A_{21} & A_{22}\end{bmatrix} $是一个2*2的矩阵; $f: \mathbb{R} ^ {2\times 2} \to \mathbb{R} $ 有如下形式：

\begin{equation*} f(A)=\frac{3}{2}A_{11}+5A_{12}^2+A_{21}A_{22} \end{equation*}

套用上面的公式，可以得到：

\begin{equation*} \nabla_Af(A)= \begin{bmatrix} \frac{3}{2} & 10A_{12} \\ A_{22} & A_{21} \end{bmatrix} \end{equation*}

定义2：矩阵的迹

矩阵的迹：

\begin{equation*} trA=\sum_{i=1}^nA_{ii} \end{equation*}

有了以上两个定义，则矩阵的迹，我们有以下性质：

\begin{equation*} trAB = trBA \end{equation*}

\begin{equation*} trABC = trCAB = trBCA\end{equation*}

\begin{equation*} trABCD = trDABC = trCDAB = trBCDA \end{equation*}

\begin{equation*} trA = trA^T\end{equation*}

\begin{equation*} tr(A+B) = trA + trB \end{equation*}

\begin{equation*} traA = atrA\end{equation*}

对于矩阵的偏导数，我们有以下性质：

\begin{equation*} \nabla_Atr(AB)=B^T \end{equation*}

\begin{equation*} \nabla_{A^T} = (\nabla_Af(A))^T \end{equation*}

\begin{equation*} \nabla_AtrABA^TC = CAB + C^TAB^T \end{equation*}

\begin{equation*} \nabla_A|A| = |A| (A^-1)^T \end{equation*}

接下来，我们来求解使得$J(\theta)$最小的$\theta$值的封闭形式。

为了将矩阵的形式重写$J$，定义一个$m\times n$的设计矩阵$X$，它包含了所有的m组训练样本的输入，每组样本的输入写成列向量$x^{(i)}$的形式:

\begin{equation*} X = \begin{bmatrix} (x^{(1)})^T \\ (x^{(2)})^T \\ \vdots \\ (x^{(m)})^T \\ \end{bmatrix} \end{equation*}

定义$\vec y$是$m$维的列向量，包含了每组训练样本的目标:

\begin{equation*} \vec y = \begin{bmatrix} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(m)} \end{bmatrix} \end{equation*}

由于$h_\theta(x^{(i)}) = (x^{(i)})^T\theta$，我们可以得出：

\begin{equation*} X\theta-\vec y = \begin{bmatrix} (x^{(1)})^T\theta \\ (x^{(2)})^T\theta \\ \vdots \\ (x^{(m)})^T\theta \end{bmatrix} - \begin{bmatrix} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(m)}\end{bmatrix} = \begin{bmatrix} h_\theta(x^{(1)})^T\theta-y^{(1)} \\ h_\theta(x^{(2)})^T\theta-y^{(2)} \\ \vdots \\ h_\theta(x^{(m)})^T\theta-y^{(m)} \end{bmatrix} \end{equation*}

对于一个向量$\vec z$，我们有知道$z^Tz= \sum_iz_i^2$，那么

\begin{equation*}\frac{1}{2}(X\theta-\vec y)^T(X\theta-\vec y) = \frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2=J(\theta) \end{equation*}

根据之前的结论，$\nabla_{A^T}trABA^TC=B^TA^TC^T+BA^TC$，因此我们有：

\begin{eqnarray*} \nabla_\theta J(\theta) & = & \nabla_\theta \frac{1}{2} (X\theta-\vec y)^T(X\theta-\vec y) \\ & = & \frac{1}{2} \nabla_\theta (\theta^TX^TX\theta-\theta^TX^T\vec y - \vec y ^TX \theta+\vec y^T\vec y) \\ & = & \frac{1}{2} \nabla_\theta tr (\theta^TX^TX\theta-\theta^TX^T\vec y - \vec y ^TX \theta+\vec y^T\vec y) \\ & = & \frac{1}{2} \nabla_\theta (tr\theta^TX^TX\theta-2tr\vec y^TX\theta) \\ & = & \frac{1}{2}(X^TX\theta+X^TX\theta-2X^T\vec y) \\ & = & X^TX\theta-X^T\vec y \end{eqnarray*}

为了求$J(\theta)$的最小值，我们使这个等式为0，最终得到：

\begin{equation*} X^TX\theta = X^T\vec y\end{equation*}

\begin{equation*} \theta = (X^TX)^{-1}X^T\vec y \end{equation*}

推导没啥难点，有线性代数基础的兄弟们应该都能看明白。

5. 局部加权线性回归

上面我们的讨论都是基于线性模型，也就是输入变量$y$和输出变量$x$之间的关系都是线性的：$y=\theta_0+\theta_1x$。实际上，这样的线性模型不一定能很好的拟合给定的数据集，例如下图中的左图。

如果我们在以上线性模型的基础上再添加一个特征$x^2$，用$y=\theta_0+\theta_1x+\theta_2x^2$来拟合，拟合的结果就比线性模型好很多，如上图的中间图所示。因此，直觉上，我们用越多的特征拟合，效果应该越好。然而，特征过多的话也会带来麻烦，例如上图中的右图，我们用5阶多项式拟合: $y=\sum_{j=0}^5\theta_jx^j$. 尽管曲线拟合了所有的样本点，但它很难用作预测房价的方式。

在没有明确的定义情况下，我们可以说图1是欠拟合(underfitting)的一个例子：模型没有很好的捕捉到数据结构。而图3是过拟合(overfitting)的一个例子。

讲这个例子的目的是为了引出非参数学习。线性回归是参数化学习算法的一个例子。所谓参数化学习，是指实际训练前都需要对数据遵从的模型进行一个假定，这个假定可以是一个已知的概率分布或混合分布。上面的例子告诉我们，对于一个参数化的学习算法，为了达到良好的性能，特征的选取是很重要的。参数方法的优点是把估计概率密度、判别式或回归函数问题归结为估计少量参数值，缺点则是模型假定并非总成立，当不成立时就会出现很大的误差。

这时我们就需要使用非参数方法，其中我们只需要假定一个事实：即相似的输入具有相似的输出。因为我们一般都认为世界的变化时平稳、量变到质变的，因此无论是密度、判别式还是回归函数都应当缓慢地变化。在这样的非参数估计（nonparamitric estimation）中，局部实例对于密度的影响就显得颇为重要，而较远的实例影响则较小。这里，我们将讨论局部加权线性回归-当训练数据足够大的时候，特征的选取就不那么重要了。

首先对比一下原始的线性回归和局部加权线性回归的区别。为了预测在一个特定点$x$的目标值$y$，

这里的$w^{(i)}$是非负的权值。直觉上，如果

一个相当标准但不唯一的权值选择方式是：

\begin{equation*} w^{(i)}=exp(-\frac{(x^{(i)}-x)^2}{2\tau^2}) \end{equation*}

线性回归是先建模型，建好以后用模型来预测，且模型建好以后，训练集合的数据不再有用。局部加权线性回归的在预测点附近选取局部数据，之后对子集执行线性回归。

局部加权线性回归是我们接触的第一个非参数学习算法。之前的线性回归是参数学习算法，因为它包含了有限且个数固定的参数(即$\theta_i$)参与数据拟合。这种方法在得到$\theta$以后不再需要训练数据了，而局部加权算法是需要的。术语“非参数”指的是，参数数目随着训练集的增大而现行增加的，你算法需要用到的东西会随着训练集合线性增长。

6. 讨论：一些假设的概率学解释

继续之前，容某吐槽一下：其实我也不知道吴老师为啥会讲这一部分内容。如果上面是教我们如何做的话，这部分讨论就是在叫我们为何能这样做？虽然内容连贯一致，但总担心会有童鞋反被迷糊和绕晕:(

友情提示，上面空了一行...好奇心比较重的童鞋可以用鼠标选中一下。只不过是选中一下，保证让你买不了吃亏买不了上当

当面对参数化学习，例如最初的线性回归时，为什么线性模型$h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2$和最小均方误差定义的损失函数$J(\theta)$是合理的选择呢？这里我们给出一系列的概率学假设，在这些假设条件下，最小均方与线性回归确实是非常合理的。

首先，我们假设目标变量与输入变量之间有如下关系：

\begin{equation*} y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)},\end{equation*}

其中，$\epsilon^{(i)}$是误差项，例如随机噪声。进一步假设$\epsilon^{(i)}$是独立同分布的(Independently and Identically Distributed, IID)，它们都服从均值为0，方差为$\sigma^2$的高斯分布，即$\epsilon^{(i)} \sim N(0, \sigma^2)$，它的密度函数为：

\begin{equation*}p(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\epsilon^{(i)})^2}{2\sigma^2}) \end{equation*}

由此我们可以推出：

\begin{equation*} p(y^{(i)}|x^{(i)};\theta) =\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \end{equation*}

因此变量$y^{(i)}|x^{(i)};\theta$服从均值为$\theta^Tx^{(i)}$，方差为$\sigma^2$的高斯分布，即$y^{(i)}|x^{(i)};\theta \sim \mathcal{N}(\theta^Tx^{(i)}, \sigma^2)$

注意，表达式$p(y^{(i)}|x^{(i)};\theta)$的含义是：给定$x^{(i)}$, 且以$\theta$为参数下的$y^{(i)}$的分布。由于$\theta$本身不是随机变量，因此我们不能把$\theta$当做条件写成$p(y^{(i)}|x^{(i)},\theta)$的形式。

给定$X$和$\theta$，$y^{(i)}$的分布$p(y^{(i)}|x^{(i)};\theta)$是什么呢？它已经由上面的公式给出，通常我们会把这个函数当做$X$或者$y$的函数。然而，在训练集中，$x$和$y$都是已知的，目的是估计$\theta$。那么，此时可以将这个函数当做参数$\theta$的函数。当把它作为参数$\theta$的函数时，我们称之为似然函数。

\begin{equation*} L(\theta)=L(\theta;X,\vec y)=p(\vec y|X;\theta)\end{equation*}

注意到$\epsilon^{(i)}$之间独立同分布的性质，上式可以写成3：

\begin{eqnarray*} L(\theta) & =& \prod_{(i=1)}^m p(y^{(i)}| x^{(i)};\theta) \\ & = & \prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \end{eqnarray*}

现在这个概率模型给定了$y^{(i)}$和$x^{(i)}$之间的关系，我们应该怎么选择最佳的$\theta$呢？按照最大似然估计的原则，应当选择使得似然函数最大的$\theta$。

在实际计算的时候，我们可以计算任何似然函数的严格增函数。因此，我们我们选择最大化对数似然函数：

\begin{eqnarray*} \ell(\theta) & = & logL(\theta) \\ & = & log\prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ & = & \sum_{i=1}^mlog\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ & = & mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}\cdot\frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 \end{eqnarray*}

最大化似然函数等价于最小化：

\begin{equation*} \frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 \end{equation*}

上面就是$J(\theta)$

\begin{equation*} \frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 \end{equation*}

也就是说，我们假定了误差服从高斯分布，然后把最大似然估计应用于线性回归的线性模型，最终得到了和直接使用最小均方误差形式相同的结果。

总结：对于回归问题，应当根据具体的应用场景选择合适的算法。例如，

1. 参数or非参数学习：根据训练集合，好的模型是否容易确定。如果模型容易确定，那么可以用参数学习比如线性回归等，如果模型不容易确定，那么就可以用非参数模型比如局部加权回归，以减小回归对于模型的依赖。

2. 线性or非线性回归：根据训练集合是否适合使用线性模型建模。

3. 批梯度下降or随机梯度下降：根据训练集合的大小，如果训练集合规模庞大，随机梯度下降是很合适的。

发表于 2017-07-29 00:35 不游泳的鱼阅读(971) 评论(1) 编辑收藏举报

刷新页面返回顶部

不游泳的鱼 Do the right thing right - 在右边做右边的事
博客园首页新随笔联系订阅管理

机器学习原理与算法（二） 监督学习之回归问题

公告

机器学习原理与算法（二）监督学习之回归问题