最大似然性与最小二乘法

最近看机器学习的内容，碰到了无数次关于最大似然性和最小二乘法的概念和应用，今天就把它整理一下。

机器学习大体可分为监督式学习和非监督式学习，在这两种学习方式中，最大似然性和最小二乘法都有着广泛的应用，要想正确的理解它们，首先得弄清它们的已知和假设条件，下面就分开讨论。

(i)非监督式学习：

非监督学习的特征，就是只有输入向量而没有与之对应的输出向量。方便起见，我们在这里讨论单值向量情形，即输入x=(x1,x2,...,xN)，表示训练集有N个输入值，假设xn独立同分布，并且服从高斯分布（单峰），µ、σ²未知，也正是我们要求的量。

那么，每个输入值xn的概率分布（高斯分布）如下：

p(xn|µ,σ²)=N(xn|µ,σ²)

因此，x高斯分布的似然函数为：

通过最大化似然函数来求得µ和σ²的似然解，对上面的似然函数取对数，得到：

从上式中可以看出，最大化似然函数就相当于最小化平方和误差函数，即最小二乘法，后面还会遇到。

再关于µ求导，使求导后的函数等于0，即可求得最大似然解：

同理可求得σ²的最大似然解：

由于样本均值、方差与总体均值方差有如下关系：

所以，需要对σ²的最大似然解σ²_ML进行纠正，最终结果如下：

上面就是非监督学习下，最大似然法的使用过程，下面来看监督学习下的步骤。

(ii)监督式学习：

监督式学习最显著的特征就是，它既有输入向量又有与之对应的输出向量，可表示为X=(x1,x2,...,xN), t=(t1,t2,...,tN)，这里xn是向量。

我们的目标就是，给定输入值 x , 预测其对应的输出值 t=y(x,w), 其中的参数w正是我们要想办法确定的。

假设输出目标值 t 由函数 y(x,w) 加上高斯噪声变量给出，即：

这里的 ε 表示均值为0,精度为 β 的高斯随机变量（β=1/σ²），进而可得到高斯条件分布：

先解释一下这个公式的由来，由于 ε 服从高斯分布，所以目标值t也符合高斯分布，又

E[t]=E(y(x,w)+ε)=y(x,w)+E(ε)=y(x,w)+0=y(x,w)

Var[t]=Var[ε]=β^-1

因此可得上面高斯条件分布。

可容易得到目标值 t 的似然函数如下：

这里的 w^TΦ(x_n)=y(xn,w), Φ(x_n)表示主函数，是个抽象形式。

取对数可得：

这里就出现了经常提到的“平方和误差函数”：

因此，最大化似然函数就相当于最小化平方和误差函数，这种方法也成为最小二乘法。

对 lnp( )求偏导可得梯度：

令梯度等于0向量，则可解出：

从上面的过程中可以看出，最小二乘法的本质还是来源于最大似然性的，并且是以假设变量服从高斯分布为前提的。

结束。

posted @ 2013-04-23 19:16 Gao Lan 阅读(588) 评论(0) 编辑收藏举报

刷新页面返回顶部

Gao Lan