最大似然性与最小二乘法

最近看机器学习的内容,碰到了无数次关于最大似然性和最小二乘法的概念和应用,今天就把它整理一下。

机器学习大体可分为监督式学习和非监督式学习,在这两种学习方式中,最大似然性和最小二乘法都有着广泛的应用,要想正确的理解它们,首先得弄清它们的已知和假设条件,下面就分开讨论。

(i)非监督式学习:

非监督学习的特征,就是只有输入向量而没有与之对应的输出向量。方便起见,我们在这里讨论单值向量情形,即输入x=(x1,x2,...,xN),表示训练集有N个输入值,假设xn独立同分布,并且服从高斯分布(单峰),µ、σ2未知,也正是我们要求的量。

那么,每个输入值xn的概率分布(高斯分布)如下:

p(xn|µ,σ2)=N(xn|µ,σ2)

因此,x高斯分布的似然函数为:

通过最大化似然函数来求得µ和σ2的似然解,对上面的似然函数取对数,得到:

从上式中可以看出,最大化似然函数就相当于最小化平方和误差函数,最小二乘法,后面还会遇到。

再关于µ求导,使求导后的函数等于0,即可求得最大似然解:

同理可求得σ2的最大似然解:

由于样本均值、方差与总体均值方差有如下关系:

所以,需要对σ2的最大似然解σ2ML进行纠正,最终结果如下:

上面就是非监督学习下,最大似然法的使用过程,下面来看监督学习下的步骤。

(ii)监督式学习:

监督式学习最显著的特征就是,它既有输入向量又有与之对应的输出向量,可表示为X=(x1,x2,...,xN), t=(t1,t2,...,tN),这里xn是向量。

我们的目标就是,给定输入值 x , 预测其对应的输出值 t=y(x,w), 其中的参数w正是我们要想办法确定的。

假设输出目标值 t 由函数 y(x,w) 加上高斯噪声变量给出,即:

这里的 ε 表示均值为0,精度为 β 的高斯随机变量(β=1/σ2),进而可得到高斯条件分布:

先解释一下这个公式的由来,由于 ε 服从高斯分布,所以目标值t也符合高斯分布,又

E[t]=E(y(x,w)+ε)=y(x,w)+E(ε)=y(x,w)+0=y(x,w)

Var[t]=Var[ε]=β-1

因此可得上面高斯条件分布。

可容易得到目标值 t 的似然函数如下:

这里的 wTΦ(xn)=y(xn,w), Φ(xn)表示主函数,是个抽象形式。

取对数可得:

 

这里就出现了经常提到的“平方和误差函数”:

因此,最大化似然函数就相当于最小化平方和误差函数,这种方法也成为最小二乘法

对 lnp( )求偏导可得梯度:

令梯度等于0向量,则可解出:

从上面的过程中可以看出,最小二乘法的本质还是来源于最大似然性的,并且是以假设变量服从高斯分布为前提的。

结束。

 

 

 

posted @ 2013-04-23 19:16  Gao Lan  阅读(588)  评论(0编辑  收藏  举报