信息量 交叉熵 KL散度

信息量

举个例子,计算机需要输入16位数,此时每种输入的概率为\({\frac 1 2}^{16}\)
若已经输入16位数,此时信息已经确定,概率则为1,那么这里16位输入的信息量就是16bit

信息量的定义为

\[-\log p_i \]

描述事情由不确定变为确定的难度

信息熵

通俗来讲,就是一个系统信息量的期望
如果一个随机变量\(X\)的可能取值为\(X={x_1,x_2,\cdots,x_n}\),对应的概率为\(p(X=x_i)\),则随机变量\(X\)的信息熵的定义为

\[H(X)=-\sum_{i=1}^np(x_i) \log p(x_i) \]

相对熵 KL散度

Kullback-Leible散度

信息论中,相对熵等价于两个概率分布的信息熵的差值
若其中一个概率分布为真实分布,另一个为拟合分布,则此时相对熵等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损失

\[\begin{align*} D_{KL}(P||Q) &=\sum_{i=1}^n p_i(f_Q(q_i)-f_P(p_i))\\ &=\sum_{i=1}^n p_i(-\log q_i - -\log p_i)\\ &=\sum_{i=1}^n p_i(-\log q_i) - \sum_{i=1}^m p_i(-\log p_i)\\ \end{align*} \]

其中\(p(x_i)\)为真实事件的概率分布,\(q(x_i)\)是理论拟合出来的该事件的概率分布
吉布斯不等式证明得知KL散度一定非负

概率模型P和Q越接近,KL散度越接近0
最后得出的这个式子前半部分就是交叉熵\(H(P,Q)\),而后半部分正是P的信息熵,也就是说KL散度=交叉熵-基准的信息熵
变形一下可以得到

\[D_{KL}(P||Q)=\sum_{i=1}^n p(x_i) \log \frac {p(x_i)} {q(x_i)} \]

P的信息熵是现在是基准,是不会变的
那么此时只用看前半部分交叉熵,最小化交叉熵,就能使模型Q与模型P更接近
所以交叉熵即可作为损失函数

交叉熵 Cross Entropy

交叉熵越小,两个概率模型越接近

\[H(P,Q)=\sum_{i=1}^m p_i(-\log q_i) \]

posted @ 2021-10-22 10:17  梦想家肾小球  阅读(73)  评论(0编辑  收藏  举报