机器学习-牛顿方法&指数分布族&GLM

本节内容

牛顿方法
指数分布族
广义线性模型

之前学习了梯度下降方法，关于梯度下降（gradient descent），这里简单的回顾下【参考感知机学习部分提到的梯度下降(gradient descent)】。在最小化损失函数时，采用的就是梯度下降的方法逐步逼近最优解，规则为其实梯度下降属于一种优化方法，但梯度下降找到的是局部最优解。如下图：

本节首先讲解的是牛顿方法（NewTon’s Method）。牛顿方法也是一种优化方法，它考虑的是全局最优。接着还会讲到指数分布族和广义线性模型。下面来详细介绍。

1.牛顿方法

现在介绍另一种最小化损失函数

假设一个函数我们需要求解此时的

图1 f(x0)=0,a1,a2,a3...逐步接近x0

在a1点的时候，f(x)切线的目标函数由于(a2,0)在这条线上，所以我们有

同理，在a2点的时候，切线的目标函数由于(a3,0)在这条线上，所以我们有

假设在第n次迭代，有那么此时有下面这个递推公式：

其中n>=2。

最后得到的公式也就是牛顿方法的学习规则，为了和梯度下降对比，我们来替换一下变量，公式如下：

那么问题来了，怎么将牛顿方法应用到我们的问题上，最小化损失函数l(theta),(或者是求极大似然估计的极大值)呢？

对于机器学习问题，现在我们优化的目标函数为极大似然估计l,当极大似然估计函数取值最大时，其导数为 0，这样就和上面函数f取 0 的问题一致了，令极大似然函数的求解更新规则是：

对于l,当一阶导数为零时，有极值；此时，如果二阶导数大于零，则l有极小值，如果二阶导数小于零，则有极大值。

上面的式子是当参数

其中和之前梯度下降中提到的一样，是梯度，H是一个n*n矩阵，H是函数的二次导数矩阵，被成为Hessian矩阵。其某个元素H_ij计算公式如下：

和梯度下降相比，牛顿方法的收敛速度更快，通常只要十几次或者更少就可以收敛，牛顿方法也被称为二次收敛（quadratic convergence），因为当迭代到距离收敛值比较近的时候，每次迭代都能使误差变为原来的平方。缺点是当参数向量较大的时候，每次迭代都需要计算一次 Hessian 矩阵的逆，比较耗时。

2.指数分布族（The exponential family）

指数分布族是指可以表示为指数形式的概率分布。指数分布的形式如下：

其中，η成为分布的自然参数（nature parameter）；T(y)是充分统计量（sufficient statistic），通常 T(y)=y。当参数 a、b、T 都固定的时候，就定义了一个以η为参数的函数族。

下面介绍两种分布，伯努利分布和高斯分布，分别把它们表示成指数分布族的形式。

伯努利分布

伯努利分布是对0，1问题进行建模的，对于有下面将其推导成指数分布族形式：
这里写图片描述

将其与指数族分布形式对比，可以看出：
这里写图片描述

表明伯努利分布也是指数分布族的一种。从上述式子可以看到，η的形式与logistic函数（sigmoid）一致，这是因为 logistic模型对问题的前置概率估计其实就是伯努利分布。

高斯分布

下面对高斯分布进行推导，推导公式如下（为了方便计算，我们将方差σ设置为1）：

这里写图片描述

将上式与指数族分布形式比对，可知：

两个典型的指数分布族，伯努利和高斯分布。其实大多数概率分布都可以表示成指数分布族形式，如下所示：

伯努利分布（Bernoulli）：对 0、1 问题进行建模；
多项式分布（Multinomial）：多有 K 个离散结果的事件建模；
泊松分布（Poisson）：对计数过程进行建模，比如网站访问量的计数问题，放射性衰变的数目，商店顾客数量等问题；
伽马分布（gamma）与指数分布（exponential）：对有间隔的正数进行建模，比如公交车的到站时间问题；
β 分布：对小数建模；
Dirichlet 分布：对概率分布进建模；
Wishart 分布：协方差矩阵的分布；
高斯分布（Gaussian）；

下面来介绍下广义线性模型（Generalized Linear Model, GLM）。

3.广义线性模型（Generalized Linear Model, GLM）

你可能会问，指数分布族究竟有何用？其实我们的目的是要引出GLM，通过指数分布族引出广义线性模型。

仔细观察伯努利分布和高斯分布的指数分布族形式中的η变量。可以发现，在伯努利的指数分布族形式中，η与伯努利分布的参数φ是一个logistic函数（下面会介绍logistic回归的推导）。此外，在高斯分布的指数分布族表示形式中，η与正态分布的参数μ相等，下面会根据它推导出普通最小二乘法（Ordinary Least Squares）。通过这两个例子，我们大致可以得到一个结论，η以不同的映射函数与其它概率分布函数中的参数发生联系，从而得到不同的模型，广义线性模型正是将指数分布族中的所有成员（每个成员正好有一个这样的联系）都作为线性模型的扩展，通过各种非线性的连接函数将线性函数映射到其他空间，从而大大扩大了线性模型可解决的问题。

下面我们看 GLM 的形式化定义，GLM 有三个假设：