2-9 logistic 损失函数的解释

logistic 损失函数的解释( Explanation of logistic regression cost function

在逻辑回归中,需要预测的结果$\hat y$可以表示为$\hat y = \sigma ({w^T}x + b)$,我们约定$\hat y = p(y|x)$,也就是说,算法输出的$\hat y$是给定训练样本x条件下y等于1的概率。

  • y=1时,在给定训练样本x条件下$y = \hat y$;
  • y=0时,在给定训练样本x条件下$y = 1- \hat y$;

因此,如果$\hat y$代表y=1的概率,那么$1- \hat y$就代表y=0的概率。将上面两个公式合二为一:

$p(y|x) = {{\hat y}^y}{(1 - \hat y)^{(1 - y)}}$

  • 当y=1时,$p(y|x) = \hat y$
  • 当y=0时,$p(y|x) = 1 - \hat y$

由于log函数是严格单调递增的函数 ,最大化$\log (p(y|x))$等价于最大化$p(y|x)$,于是对式子两边取对数可以将函数简化为:

$y\log \hat y + (1 - y)\log (1 - \hat y)$

这个式子相当于都逻辑回归损失函数取负,即:

$y\log \hat y + (1 - y)\log (1 - \hat y) =  - (L(\hat y,y))$

负号在此解释为,在逻辑回归中我们需要最小化损失函数,由此,最小化损失函数和最大化条件概率的对数$\log (p(y|x))$就建立起了关系,这就是单个训练样本的损失函数表达式。

对于m个训练样本,它们独立同分布,所以联合概率就是每个样本密度的乘积:

$\log p(label{\mathop{\rm s}\nolimits} \;in\;training\;set) = \log \prod\limits_{i = 1}^m {p({y^{(i)}}|{x^{(i)}})}$

如果想做最大似然估计,需要寻找一组参数,使得给定样本的观测值概率最大,使得这个概率最大化等价于使其对数最大化,于是:

$\log p(label{\mathop{\rm s}\nolimits} \;in\;training\;set) = \log \prod\limits_{i = 1}^m {p({y^{(i)}}|{x^{(i)}})}  = \sum\limits_{i = 1}^m {\log p({y^{(i)}}|{x^{(i)}}) = \sum\limits_{i = 1}^m { - L({{\hat y}^{(i)}},{y^{(i)}})} }$

统计学中称这种方法为最大似然估计,在实际使用时可以对代价函数进行适当的缩放,即在外面加一个常数因子,由此便得到我们的逻辑回归代价函数:

$J(w,b) = \frac{1}{m}\sum\limits_{i = 1}^m {L({{\hat y}^{(i)}},{y^{(i)}})}$ 

posted @ 2018-08-16 20:19  刘-皇叔  阅读(2639)  评论(0编辑  收藏  举报