最大似然函数

2019-06-20 10:40 heixialee 阅读(5794) 评论(0) 编辑收藏举报

概率函数 vs 似然函数 : p(x|θ) (概率函数是θ，已知，求x的概率。似然函数是x已知，求θ)

分布是p(x|θ)的总体样本中抽取到这100个样本的概率，也就是样本集X中各个样本的联合概率

最大似然估计为：

为了方便计算，对联合概率取对数

求最大似然函数估计值的一般步骤：

（1）写出似然函数；

（2）对似然函数取对数，并整理；

（3）求导数，令导数为0，得到似然方程；

（4）解似然方程，得到的参数即为所求；

最大似然函数推导交叉熵：

二分类问题二分类模型可认为符合二项分布，设X={0,1}， $y$ 为样品的真实类别。则有 $P(X=0, w)=1-P(X=1, w)$ 因此有
$f(x|w) = [1-P(X=1, w)]^{1-y} * [P(X=1, w)]^y$
对于m次观察结果，则有
$f(X|w) = \prod_{i=1}^{m}[1-P(X=1, w)]^{1-y_i} * [P(X=1, w)]^{y_i}$
写出似然函数
$L(w|X) = f(X|w)$
取对数似然，有
$\ln{L(w|X)} = \sum_{i=1}^{m}[(1-y_i)\ln{(1-P(X=1, w))} + y_i\ln{(P(X=1, w))}]$
当 $-[(1-y_i)\ln{(1-P(X=1, w))} + y_i\ln{(P(X=1, w))}]$ 取得最大时，则似然函数也取得最大。
通常我们做二分类时，最后通过sigmoid激活函数输出，其输出值即是 $y_{hat}=P(X=1|w)$ 。
因此将上式化简，即是binary cross entropy形式：
$-[y\ln{y_{hat}}+(1-y)\ln{(1-y_{hat})}]$

多分类问题多分类问题将二项分布扩展到多项分布，设有n个类别，则有
$f(x|w) = \prod_{C=1}^{n} P(X=C, w)^{y_{C}}$
同样的，对于m个样本，写出其对数似然
$\ln{L(w|X)} = \sum_{i=1}^{m}[(1-x_i)\sum_{C=1}^{n}y_{iC}\ln{P(X=C, w)}$
其中 $-\sum_{C=1}^{n}y_{iC}\ln{P(X=C, w)}$ 即是cross entropy，当其取得最小时，似然函数取得最大。

刷新页面返回顶部

heixialee

最大似然函数

About