信息量交叉熵 KL散度

信息量

举个例子，计算机需要输入16位数，此时每种输入的概率为\({\frac 1 2}^{16}\)
若已经输入16位数，此时信息已经确定，概率则为1，那么这里16位输入的信息量就是16bit

信息量的定义为

\[-\log p_i \]

描述事情由不确定变为确定的难度

信息熵

通俗来讲，就是一个系统信息量的期望
如果一个随机变量\(X\)的可能取值为\(X={x_1,x_2,\cdots,x_n}\),对应的概率为\(p(X=x_i)\)，则随机变量\(X\)的信息熵的定义为

\[H(X)=-\sum_{i=1}^np(x_i) \log p(x_i) \]

相对熵 KL散度

Kullback-Leible散度

信息论中，相对熵等价于两个概率分布的信息熵的差值
若其中一个概率分布为真实分布，另一个为拟合分布，则此时相对熵等于交叉熵与真实分布的信息熵之差，表示使用理论分布拟合真实分布时产生的信息损失

\[\begin{align*} D_{KL}(P||Q) &=\sum_{i=1}^n p_i(f_Q(q_i)-f_P(p_i))\\ &=\sum_{i=1}^n p_i(-\log q_i - -\log p_i)\\ &=\sum_{i=1}^n p_i(-\log q_i) - \sum_{i=1}^m p_i(-\log p_i)\\ \end{align*} \]

其中\(p(x_i)\)为真实事件的概率分布,\(q(x_i)\)是理论拟合出来的该事件的概率分布
由吉布斯不等式证明得知KL散度一定非负

概率模型P和Q越接近，KL散度越接近0
最后得出的这个式子前半部分就是交叉熵\(H(P,Q)\)，而后半部分正是P的信息熵，也就是说KL散度=交叉熵-基准的信息熵
变形一下可以得到

\[D_{KL}(P||Q)=\sum_{i=1}^n p(x_i) \log \frac {p(x_i)} {q(x_i)} \]

P的信息熵是现在是基准，是不会变的
那么此时只用看前半部分交叉熵，最小化交叉熵，就能使模型Q与模型P更接近
所以交叉熵即可作为损失函数

交叉熵 Cross Entropy

交叉熵越小，两个概率模型越接近

\[H(P,Q)=\sum_{i=1}^m p_i(-\log q_i) \]

posted @ 2021-10-22 10:17 梦想家肾小球阅读(73) 评论(0) 编辑收藏举报

刷新页面返回顶部

Which is more painful? Efforts or Regrets.

信息量交叉熵 KL散度

信息量

信息熵

相对熵 KL散度

交叉熵 Cross Entropy

公告

Which is more painful? Efforts or Regrets.

信息量 交叉熵 KL散度

信息量

信息熵

相对熵 KL散度

交叉熵 Cross Entropy

公告

信息量交叉熵 KL散度