交叉熵与对数似然分析

信息论(Information Theory)

  • “信息”是指一组消息的集合。

  • 假设在一个噪声通道上发送消息,我们需要考虑如何对每一个信息进行编码、传输以及解码,使得接收者可以尽可能准确地重构出消息。

  • 信息论将信息的传递看作一种统计现象。

    • 信息传输

    • 信息压缩

熵(Entropy)

在信息论中,用来衡量一个随机事件的不确定性。

  • 熵越高,则随机变量的信息越多;
  • 熵越低,则随机变量的信息越少.

applicatio_确定性非常高,p(x=n)=1

appl_那么有appleapply两种可能,假设

(1)P(x=e)=0.7(2)P(x=y)=0.3

自信息(Self Information):一个随机事件所包含的信息量

对于一个随机变量X,当X=x时的自信息I(x)定义为

I(x)=logp(x)

这样定义,让它满足可加性

(3)I(x,x)=[logp(x)+logp(x)](4)=log(p(x)p(x))

随机变量X的自信息的数学期望

(5)H(x)=Ex[I(x)](6)=Ex[logp(x)](7)=xχp(x)logp(x)

熵编码(Entropy Encoding)

在对分布p(y)的符号进行编码时,熵H(p)也是理论上最优的平均编码长度,这种编码方式称为熵编码。

什么样的编码是最优编码呢?最常出现的字符编码越短,出现频率越小的字符编码越长。

交叉熵(Cross Entropy)

交叉熵是按照概率分布q的最优编码对真实分布为p的信息进行编码的长度

H(p,q)=Ep[logq(x)]=xp(x)logq(x)

  • 在给定q的情况下,如果p和q越接近,交叉熵越小;
  • 如果p和q越远,交叉嫡就越大。

KL散度(Kullback-Leibler Divergence)

  • KL散度是用概率分布q来近似p时所造成的信息损失量。
  • KL散度是按照概率分布q的最优编码对真实分布为p的信息进行编码,其平均编码长度(即交叉熵)H(pq)和p的最优平均编码长度(即熵)H(p)之间的差异。

KL(p,q)=H(p,q)H(p)=xp(x)logp(x)q(x)

应用到机器学习

以分类为例

真实分布

Pr(y|x)

预测分布

Pθ(y|x)

假设y*为x的真实标签

(8)Pr(y|x)=1(9)Pr(y|x)=0,yy

真实分布相当于onehot向量

(10)[00010]c=Pr(y|x)

如何衡量两个分布的差异?

课程视频链接:3.3交叉熵与对数似然

原创作者:孤飞-博客园
原文链接:https://www.cnblogs.com/ranxi169/p/16583838.html

本文作者:孤飞

本文链接:https://www.cnblogs.com/ranxi169/p/16583838.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   孤飞  阅读(171)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起