2-9 logistic 损失函数的解释
logistic 损失函数的解释( Explanation of logistic regression cost function)
在逻辑回归中,需要预测的结果$\hat y$可以表示为$\hat y = \sigma ({w^T}x + b)$,我们约定$\hat y = p(y|x)$,也就是说,算法输出的$\hat y$是给定训练样本x条件下y等于1的概率。
- y=1时,在给定训练样本x条件下$y = \hat y$;
- y=0时,在给定训练样本x条件下$y = 1- \hat y$;
因此,如果$\hat y$代表y=1的概率,那么$1- \hat y$就代表y=0的概率。将上面两个公式合二为一:
$p(y|x) = {{\hat y}^y}{(1 - \hat y)^{(1 - y)}}$
- 当y=1时,$p(y|x) = \hat y$
- 当y=0时,$p(y|x) = 1 - \hat y$
由于log函数是严格单调递增的函数 ,最大化$\log (p(y|x))$等价于最大化$p(y|x)$,于是对式子两边取对数可以将函数简化为:
$y\log \hat y + (1 - y)\log (1 - \hat y)$
这个式子相当于都逻辑回归损失函数取负,即:
$y\log \hat y + (1 - y)\log (1 - \hat y) = - (L(\hat y,y))$
负号在此解释为,在逻辑回归中我们需要最小化损失函数,由此,最小化损失函数和最大化条件概率的对数$\log (p(y|x))$就建立起了关系,这就是单个训练样本的损失函数表达式。
对于m个训练样本,它们独立同分布,所以联合概率就是每个样本密度的乘积:
$\log p(label{\mathop{\rm s}\nolimits} \;in\;training\;set) = \log \prod\limits_{i = 1}^m {p({y^{(i)}}|{x^{(i)}})}$
如果想做最大似然估计,需要寻找一组参数,使得给定样本的观测值概率最大,使得这个概率最大化等价于使其对数最大化,于是:
$\log p(label{\mathop{\rm s}\nolimits} \;in\;training\;set) = \log \prod\limits_{i = 1}^m {p({y^{(i)}}|{x^{(i)}})} = \sum\limits_{i = 1}^m {\log p({y^{(i)}}|{x^{(i)}}) = \sum\limits_{i = 1}^m { - L({{\hat y}^{(i)}},{y^{(i)}})} }$
统计学中称这种方法为最大似然估计,在实际使用时可以对代价函数进行适当的缩放,即在外面加一个常数因子,由此便得到我们的逻辑回归代价函数:
$J(w,b) = \frac{1}{m}\sum\limits_{i = 1}^m {L({{\hat y}^{(i)}},{y^{(i)}})}$