1.信息熵
对于信息内容的度量依赖于概率分布p(x),我们想要找到这么一个函数h(x),要满足
1.它是概率p(x)的单调递增函数
2.如果我们有两个不相关的事件x和y,我们观察到两个事件同时发⽣时获得的信息应该等于观察到事件各⾃发⽣时获得的信息之和,即h(x,y)=h(x)+h(y),两个不相关事件是统计独⽴的,因此p(x,y)=p(x)p(y)
所以能看出h(x)一定与p(x)的对数有关,我们所以有
h(x)=−log2p(x) --1.92
底数不一定是2,只是按照传统信息论,取,则h(x)的单位是bite(bit,binary digit)
现在假设⼀个发送者想传输⼀个随机变量的值给接收者。这个过程中,他们传输的平均信息量通可以通过求公式(1.92)关于概率分布p(x)的期望得到。这个期望值为
H[x]=−∑xp(x)log2p(x) --1.93
这就是熵entropy
如果ln自然对数为底,则熵的单位是nat
2.离散变量下的熵的最大值
熵是信息的度量单位,熵越大信息越混乱,越没有意义,传递也越为困难,代价越大
可以证明(拉格朗日乘子法)当所有的p(xi)都相等,且值为p(xi)=1M时,熵取得最⼤值,M是状态xi的总数
即均匀分布下的熵最大,因为最为混乱,没有意义
3.连续变量的熵
连续变量的熵称为微分熵


4.连续变量的熵的最大值
最大化微分熵需要遵循下面三个限制

通过拉格朗日乘子法,解得

因此最大化微分熵的分布是高斯分布
5.高斯分布的微分熵
因熵随着分布宽度(σ2的增加而增加)
这个结果也表明,与离散熵不同,微分熵是可以为负的
对于高斯分布的微分熵(1.110),当σ2<12πe时,H(x)<0
6.条件熵
假设我们有⼀个联合概率分布p(x,y)。我们从这个概率分布中抽取了⼀对x和y。如果x的值已知,那么需要确定对应的y值所需的附加的信息就是−lnp(y|x)。因此,⽤来确定y值的平均附加信息可以写成

这被称为给定x的情况下,y的条件熵。使⽤乘积规则,很容易看出,条件熵满⾜下⾯的关系

其中,H[x,y]是p(x,y)的微分熵(注意这里的说法,H是某个分布p的XX熵),H[x]是边缘分布p(x)的微分熵。因此,描述x和y所需的信息是描述x⾃⼰所需的信息,加上给定x的情况下具体化y所需的额外信息。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)