熵、联和熵与条件熵、交叉熵与相对熵是什么呢？详细解读这里有！

熵是一个很常见的名词，在物理上有重要的评估意义，自然语言处理的预备知识中，熵作为信息论的基本和重点知识，在这里我来记录一下学习的总结，并以此与大家分享。

信息论基本知识

1、熵

2、联和熵与条件熵

3、互信息

4、交叉熵与相对熵

5、困惑度

6、总结

1、熵

熵也被称为自信息，描述一个随机变量的不确定性的数量。熵越大，表明不确定性越大，所包含的信息量也越大，就说明很难去预测事件行为或者正确估值。
熵的公式定义：

解答：

这里计算将相同概率的字符合并计算，结果表明什么呢？
结果说明传输一个字符平均只需要2.5个比特：

字符	a	b	c	d	e	f
编码	100	00	101	01	110	111

2、联和熵与条件熵

联和熵描述一对随机变量平均所需要的信息量。公式定义：

与之联系密切的条件熵指的是：给定X的情况下，Y的条件熵为：

将以上公式（1）化简可以得到

3、互信息

熵的连锁规则

4、交叉熵与相对熵

相对熵简称KL差异或KL距离，衡量相同时间空间里两个概率分布相对差异的测度。

根据公式可知，当两个随机分布完全相同时，即p=q,其相对熵为0。当两个随机分布差别增加，相对熵的期望值也增大。
相对熵与互信息的联系如下证明：

相对熵证明
交叉熵就是机器学习中经常提到的一种熵的计算。它到底是什么呢？

在设计模型q时候，目的是使交叉熵最小，这样模型的表现更好，从而使模型更接近最真实的概率分布

5、困惑度

在设计语言模型，通常用困惑度（

所以，寻找困惑度最小的模型成为模型设计的任务，通常指的是模型对于测试数据的困惑度。

6、总结

在信息论的熵部分，我们学到了什么呢？开始说到，这是NLP基础，也是入门机器学习的重要理论部分。

熵（自信息）：描述一个随机变量的不确定性的数量。熵越大，表明不确定性越大，所包含的信息量也越大，就说明很难去预测事件行为或者正确估值。
联和熵：描述一对随机变量平均所需要的信息量。
条件熵：给定X的情况下，通过联和熵计算Y的条件熵，类似于条件概率思想。由此引出互信息概念。
相对熵：简称KL差异或KL距离，衡量相同时间空间里两个概率分布相对差异的测度，与互信息密切相关。
交叉熵：衡量估计模型与真实概率分布之间之间差异情况。

学习之后的一些记录，发现这部分知识在其他方面经常提及到，却不知其原理知识，因此做了一个简单的总结备忘，与尔共享！

更好的阅读体验请转至我的CSDN博客哦！

我的CSDN博客：熵、联和熵与条件熵、交叉熵与相对熵是什么呢？来这里有详细解读！

我的博客园：熵、联和熵与条件熵、交叉熵与相对熵是什么呢？详细解读这里有！

————————————————
版权声明：本文为CSDN博主「Charzous」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Charzous/article/details/107669211

posted @ 2020-07-29 23:18 Charzueus 阅读(1185) 评论(0) 收藏举报

刷新页面返回顶部

书山有路===学海无涯

熵、联和熵与条件熵、交叉熵与相对熵是什么呢？详细解读这里有！

信息论基本知识

1、熵

2、联和熵与条件熵

3、互信息

4、交叉熵与相对熵

5、困惑度

6、总结

1、熵

2、联和熵与条件熵

3、互信息

4、交叉熵与相对熵

5、困惑度

6、总结

公告