怎么衡量废话有多废

参考这篇文章:

https://mp.weixin.qq.com/s?__biz=MzI1OTYwNDE2Mg==&mid=2247483753&idx=1&sn=acec759cf688e21660b61e791986bfac&chksm=ea772ac4dd00a3d239995c8e6b9e83159e1ddd35781ec2109e1e0b6678f088001d988ca5756f&token=47119943&lang=zh_CN#rd

 

 

我们可以定义一个概率分布的不确定程度了,它可以定义成所有可能发生事件的不确定程度的期望:

 

这个公式里,x是事件,U是所有可能的事件,P(x)是事件x发生的概率。

 

现在你知道怎么去量化一个消息的信息量了吗?

 

刚刚介绍的“不确定程度”这个概念就是大名鼎鼎的信息熵entropy,是信息理论里面最最基础的一个概念。这个概念和它的延伸被用到了很多地方:

  1. 机器学习领域用到了,用来评价一个算法效果好不好

  2. 计算机存储用到了,用来研究怎么存数据用到的存储空间最小(信息压缩)

  3. 通信传输用到了,怎么传输信号才能保证就算丢失了部分信号也还能复原信息

  4. 物理学表示气体的有序性用到了(其实是物理先有类似概念的)

  5. ...

 

当我们这么“扎实地”去定义一个概念的时候,就会发现,它能被用到很多很多地方作为基础。

 

posted @ 2022-03-07 12:03  blcblc  阅读(69)  评论(0编辑  收藏  举报