代码改变世界

最大似然函数

2019-06-20 10:40  heixialee  阅读(5794)  评论(0编辑  收藏  举报

概率函数 vs 似然函数  : p(x|θ) (概率函数是θ,已知,求x的概率。似然函数是x已知,求θ)

 

分布是p(x|θ)的总体样本中抽取到这100个样本的概率,也就是样本集X中各个样本的联合概率

最大似然估计为:

为了方便计算,对联合概率取对数

求最大似然函数估计值的一般步骤:

(1)写出似然函数;

(2)对似然函数取对数,并整理;

(3)求导数,令导数为0,得到似然方程;

(4)解似然方程,得到的参数即为所求;

 

最大似然函数推导交叉熵:

二分类问题二分类模型可认为符合二项分布,设X={0,1}, [公式] 为样品的真实类别。则有 [公式] 因此有
[公式] 
对于m次观察结果,则有
[公式] 
写出似然函数
[公式] 
取对数似然,有
[公式] 
当 [公式] 取得最大时,则似然函数也取得最大。
通常我们做二分类时,最后通过sigmoid激活函数输出,其输出值即是 [公式] 。
因此将上式化简,即是binary cross entropy形式:
[公式]

多分类问题多分类问题将二项分布扩展到多项分布,设有n个类别,则有
[公式] 
同样的,对于m个样本,写出其对数似然
[公式] 
其中 [公式] 即是cross entropy,当其取得最小时,似然函数取得最大。