最大似然性与最小二乘法
最近看机器学习的内容,碰到了无数次关于最大似然性和最小二乘法的概念和应用,今天就把它整理一下。
机器学习大体可分为监督式学习和非监督式学习,在这两种学习方式中,最大似然性和最小二乘法都有着广泛的应用,要想正确的理解它们,首先得弄清它们的已知和假设条件,下面就分开讨论。
(i)非监督式学习:
非监督学习的特征,就是只有输入向量而没有与之对应的输出向量。方便起见,我们在这里讨论单值向量情形,即输入x=(x1,x2,...,xN),表示训练集有N个输入值,假设xn独立同分布,并且服从高斯分布(单峰),µ、σ2未知,也正是我们要求的量。
那么,每个输入值xn的概率分布(高斯分布)如下:
p(xn|µ,σ2)=N(xn|µ,σ2)
因此,x高斯分布的似然函数为:
通过最大化似然函数来求得µ和σ2的似然解,对上面的似然函数取对数,得到:
从上式中可以看出,最大化似然函数就相当于最小化平方和误差函数,即最小二乘法,后面还会遇到。
再关于µ求导,使求导后的函数等于0,即可求得最大似然解:
同理可求得σ2的最大似然解:
由于样本均值、方差与总体均值方差有如下关系:
所以,需要对σ2的最大似然解σ2ML进行纠正,最终结果如下:
上面就是非监督学习下,最大似然法的使用过程,下面来看监督学习下的步骤。
(ii)监督式学习:
监督式学习最显著的特征就是,它既有输入向量又有与之对应的输出向量,可表示为X=(x1,x2,...,xN), t=(t1,t2,...,tN),这里xn是向量。
我们的目标就是,给定输入值 x , 预测其对应的输出值 t=y(x,w), 其中的参数w正是我们要想办法确定的。
假设输出目标值 t 由函数 y(x,w) 加上高斯噪声变量给出,即:
这里的 ε 表示均值为0,精度为 β 的高斯随机变量(β=1/σ2),进而可得到高斯条件分布:
先解释一下这个公式的由来,由于 ε 服从高斯分布,所以目标值t也符合高斯分布,又
E[t]=E(y(x,w)+ε)=y(x,w)+E(ε)=y(x,w)+0=y(x,w)
Var[t]=Var[ε]=β-1
因此可得上面高斯条件分布。
可容易得到目标值 t 的似然函数如下:
这里的 wTΦ(xn)=y(xn,w), Φ(xn)表示主函数,是个抽象形式。
取对数可得:
这里就出现了经常提到的“平方和误差函数”:
因此,最大化似然函数就相当于最小化平方和误差函数,这种方法也成为最小二乘法。
对 lnp( )求偏导可得梯度:
令梯度等于0向量,则可解出:
从上面的过程中可以看出,最小二乘法的本质还是来源于最大似然性的,并且是以假设变量服从高斯分布为前提的。
结束。