交叉熵代价函数(损失函数)及其求导推导

原文：https://blog.csdn.net/jasonzzj/article/details/52017438

本文只讨论Logistic回归的交叉熵，对Softmax回归的交叉熵类似。

交叉熵的公式

以及 $J (θ) 对$

$J (θ) 对$

交叉熵损失函数

假设函数（hypothesis function）定义为：

因为Logistic回归问题就是0/1的二分类问题，可以有

现在，我们不考虑“熵”的概念，根据下面的说明，从简单直观角度理解，就可以得到我们想要的损失函数：我们将概率取对数，其单调性不变，有：

那么对于第 $i$

$i$

其中，I{y(i)=1}和I{y(i)=0}为示性函数（indicative function），简单理解为{ }内条件成立时取1，否则取0。

由以上表征正确的概率含义可知，我们希望其值越大，模型对数据的表达能力越好。而我们在参数更新或衡量模型优劣时是需要一个能充分反映模型表现误差的损失函数（Loss function）或者代价函数（Cost function）的，而且我们希望损失函数越小越好。由这两个矛盾，那么我们不妨领代价函数为上述组合对数概率的相反数：