损失函数

参考：

最小二乘法

所谓最小即梯度下降要找到使得损失函数最小的参数W和b

所谓二乘法即使用了真实值与预测值差的平方，目的是方便求导

根据样本实际的情况，估计样本服从某种分布的概率，找到最大可能的一种概率模型

计算神经网络概率模型的似然值，找到极大似然值，这个就应该是最接近真实情况的概率模型

其实就是给定一种模型，在神经网络中这个模型由其权重参数W和偏置b决定，计算在这个模型上出现输入情况的概率，然后我们需要最大化这个概率，用于逼近真实模型

此处直接理解概率会清晰一点，现在的目标是计算在参数为（W，b）的模型下，得出输入情况（x₁...x_n）的概率

其中y_i为在当前模型下预测输入图片是猫的概率

将所有情况连乘即为所求概率，连乘形式不方便，使用log变为求和，如下所示

目标是最大化这个概率，而梯度下降是最小化损失函数，因此添加负号，即为损失函数

指一个事件从不确定到确定的难度有多大，信息量比较大说明难度比较高

看能带来确定性的多少。8支球队，比赛前每队夺冠的概率是1/8

信息2提供的信息量更大，不同信息含有的信息量是不同的

定量计算信息量，以8支球队的比赛作为例子

比赛之前每支球队夺冠的概率是1/8，则信息1：球队A夺冠，其提供的信息量与信息2：球队A进入决赛+信息3：球队A赢得决赛提供的信息量是相同的

这里可以理解成x1 = P(阿根廷进决赛)，x2 = P(阿根廷赢了决赛)

则f(1/8) = f(x1*x2)，f(1/4) = f(x1)，f(1/2) = f(x2)
于是f(x1 * x2) = f(x1) + f(x2)，根据公式确定对数运算
结合自变量x为概率，一开始概率越小，这个事件发生提供的信息量越多，因此应为单调递减函数，添负号
再确定底数为2，可以直接和计算机中的比特相结合

综上得信息量计算公式\(\ f(x) = -log_2^x\)