在参数模型中,例如神经网络和线性模型,其目标都是学习一组参数θ,将输入向量映射到输出向量 。

现在假设输入、输出都是一维的, 即:

 y = f*(x)

其中f*未知。现在用

 y = f(x;θ)

去逼近目标映射f*.

目标映射虽然未知,但可以通过给定x值,观测其y值。假设现在我们通过观测得到一组数据:

 (x1,y1)、(x2,y2)、... 、(xn,yn)

由于是观测数据,故必然有误差,所以(下面所有出现的i = 1,2, .. , n):

 yi  ≠  f*(xi)

假设误差项为εi ,则有:

 y=  f*(xi) + εi

对于f(x;θ)同样也要考虑该误差项:

 yi  =  f(x;θ) + εi

现在假设,误差项 εi服从均值为0,方差为σ2的高斯分布, 且εi独立同分布,即:

  ε~ N(0,σ2 )

故有:

依据高斯分布的性质,有在xi 条件下,yi服从均值为f(xi;θ) ,:方差为σ2的高斯分布,即:

 yi|xi  ~ N(f(xi;θ) , σ2 )

故有:

其中

称之为似然函数。那么为了得到参数θ,可用最大似然估计。即出现这样一组观测数据的概率为:

把θ当做变量,最大化这个概率,等价于最大会这个概率的对数,则有:

 

最大化lnL(θ),等价于最小化

 

Posted on 2017-11-30 11:53  小小旅行商  阅读(928)  评论(0编辑  收藏  举报