信息量 交叉熵 KL散度
信息量
举个例子,计算机需要输入16位数,此时每种输入的概率为\({\frac 1 2}^{16}\)
若已经输入16位数,此时信息已经确定,概率则为1,那么这里16位输入的信息量就是16bit
信息量的定义为
\[-\log p_i
\]
描述事情由不确定变为确定的难度
信息熵
通俗来讲,就是一个系统信息量的期望
如果一个随机变量\(X\)的可能取值为\(X={x_1,x_2,\cdots,x_n}\),对应的概率为\(p(X=x_i)\),则随机变量\(X\)的信息熵的定义为
\[H(X)=-\sum_{i=1}^np(x_i) \log p(x_i)
\]
相对熵 KL散度
Kullback-Leible散度
信息论中,相对熵等价于两个概率分布的信息熵的差值
若其中一个概率分布为真实分布,另一个为拟合分布,则此时相对熵等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损失
\[\begin{align*}
D_{KL}(P||Q)
&=\sum_{i=1}^n p_i(f_Q(q_i)-f_P(p_i))\\
&=\sum_{i=1}^n p_i(-\log q_i - -\log p_i)\\
&=\sum_{i=1}^n p_i(-\log q_i) - \sum_{i=1}^m p_i(-\log p_i)\\
\end{align*}
\]
其中\(p(x_i)\)为真实事件的概率分布,\(q(x_i)\)是理论拟合出来的该事件的概率分布
由吉布斯不等式证明得知KL散度一定非负
概率模型P和Q越接近,KL散度越接近0
最后得出的这个式子前半部分就是交叉熵\(H(P,Q)\),而后半部分正是P的信息熵,也就是说KL散度=交叉熵-基准的信息熵
变形一下可以得到
\[D_{KL}(P||Q)=\sum_{i=1}^n p(x_i) \log \frac {p(x_i)} {q(x_i)}
\]
P的信息熵是现在是基准,是不会变的
那么此时只用看前半部分交叉熵,最小化交叉熵,就能使模型Q与模型P更接近
所以交叉熵即可作为损失函数
交叉熵 Cross Entropy
交叉熵越小,两个概率模型越接近
\[H(P,Q)=\sum_{i=1}^m p_i(-\log q_i)
\]