在参数模型中,例如神经网络和线性模型,其目标都是学习一组参数θ,将输入向量映射到输出向量 。
现在假设输入、输出都是一维的, 即:
y = f*(x)
其中f*未知。现在用
y = f(x;θ)
去逼近目标映射f*.
目标映射虽然未知,但可以通过给定x值,观测其y值。假设现在我们通过观测得到一组数据:
(x1,y1)、(x2,y2)、... 、(xn,yn)
由于是观测数据,故必然有误差,所以(下面所有出现的i = 1,2, .. , n):
yi ≠ f*(xi)
假设误差项为εi ,则有:
yi = f*(xi) + εi
对于f(x;θ)同样也要考虑该误差项:
yi = f(x;θ) + εi
现在假设,误差项 εi服从均值为0,方差为σ2的高斯分布, 且εi独立同分布,即:
εi ~ N(0,σ2 )
故有:
依据高斯分布的性质,有在xi 条件下,yi服从均值为f(xi;θ) ,:方差为σ2的高斯分布,即:
yi|xi ~ N(f(xi;θ) , σ2 )
故有:
其中
称之为似然函数。那么为了得到参数θ,可用最大似然估计。即出现这样一组观测数据的概率为:
把θ当做变量,最大化这个概率,等价于最大会这个概率的对数,则有:
最大化lnL(θ),等价于最小化