最大似然函数
2019-06-20 10:40 heixialee 阅读(5794) 评论(0) 编辑 收藏 举报概率函数 vs 似然函数 : p(x|θ) (概率函数是θ,已知,求x的概率。似然函数是x已知,求θ)
分布是p(x|θ)的总体样本中抽取到这100个样本的概率,也就是样本集X中各个样本的联合概率
最大似然估计为:
为了方便计算,对联合概率取对数
求最大似然函数估计值的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数,并整理;
(3)求导数,令导数为0,得到似然方程;
(4)解似然方程,得到的参数即为所求;
最大似然函数推导交叉熵:
二分类问题二分类模型可认为符合二项分布,设X={0,1}, 为样品的真实类别。则有 因此有
对于m次观察结果,则有
写出似然函数
取对数似然,有
当 取得最大时,则似然函数也取得最大。
通常我们做二分类时,最后通过sigmoid激活函数输出,其输出值即是 。
因此将上式化简,即是binary cross entropy形式:
多分类问题多分类问题将二项分布扩展到多项分布,设有n个类别,则有
同样的,对于m个样本,写出其对数似然
其中 即是cross entropy,当其取得最小时,似然函数取得最大。