交叉熵与对数似然分析
信息论(Information Theory)
-
“信息”是指一组消息的集合。
-
假设在一个噪声通道上发送消息,我们需要考虑如何对每一个信息进行编码、传输以及解码,使得接收者可以尽可能准确地重构出消息。
-
信息论将信息的传递看作一种统计现象。
-
信息传输
-
信息压缩
-
熵(Entropy)
在信息论中,熵用来衡量一个随机事件的不确定性。
- 熵越高,则随机变量的信息越多;
- 熵越低,则随机变量的信息越少.
applicatio_
确定性非常高,p(x=n)=1
appl_
那么有apple
或apply
两种可能,假设
自信息(Self Information):一个随机事件所包含的信息量
对于一个随机变量X,当X=x时的自信息I(x)定义为
这样定义,让它满足可加性
熵:随机变量X的自信息的数学期望
熵编码(Entropy Encoding)
在对分布p(y)
的符号进行编码时,熵H(p)
也是理论上最优的平均编码长度,这种编码方式称为熵编码。
什么样的编码是最优编码呢?最常出现的字符编码越短,出现频率越小的字符编码越长。
交叉熵(Cross Entropy)
交叉熵是按照概率分布q的最优编码对真实分布为p的信息进行编码的长度。
- 在给定q的情况下,如果p和q越接近,交叉熵越小;
- 如果p和q越远,交叉嫡就越大。
KL散度(Kullback-Leibler Divergence)
- KL散度是用概率分布q来近似p时所造成的信息损失量。
- KL散度是按照概率分布q的最优编码对真实分布为p的信息进行编码,其平均编码长度(即交叉熵)H(pq)和p的最优平均编码长度(即熵)H(p)之间的差异。
应用到机器学习
以分类为例
真实分布
预测分布
假设y*为x的真实标签
真实分布相当于onehot向量
如何衡量两个分布的差异?
课程视频链接:3.3交叉熵与对数似然
原创作者:孤飞-博客园
原文链接:https://www.cnblogs.com/ranxi169/p/16583838.html
本文作者:孤飞
本文链接:https://www.cnblogs.com/ranxi169/p/16583838.html
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步