【数据科学复习 - 1】熵

为了让复习不流于形式, 也为了总结自己本学期所学, 拟将复习内容以电子笔记形式记录.

1. 信息熵

1.1 信息熵的定义

\[H(X)=-C\sum_{x\in X}p(x)logp(x) \]

\(log_ab=\frac{log_cb}{log_ca}\)可知, 采用不同底数只会使得\(C\)​不同.​因此针对不同情况可选用不同的底数.

理解

自信息量:\(I(x)=-logp(x)\)​​,自信息量衡量了单个事件携带的信息量,这与我们对信息量的感性认知是相符的, 即一件事发生概率越高信息量就越低.​

而一个系统由随机事件组成,要衡量这个系统的不确定性就可以用平均信息量来衡量. 平均信息量越大则系统的不确定性越大. 从这个思路出发, 很自然地可以得到熵的定义

\[H(X)=E(I(x))=-C\sum_{x\in X}p(x)logp(x) \]

熵的定义中\(p(x)\)​是这个随机变量真实分布的概率. 因此可从一方面理解熵:信息熵衡量了系统的不确定性,熵的大小是我们要消除这个不确定性所需要付出的最小努力.(比如编码长度等)

1.2 熵的性质

  • 非负性: \(H(X)\geq0\)

  • 单调性:发生概率越高的事件, 其携带的信息量就越低. (由\(p(x)logp(x)\)的单调性决定)

  • 可加性:\(H(XY)=H(X)+H(Y)\)​, 证略

2. 信息熵计算

2.1 联合熵

\[H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(x,y) \]

例题

随机变量\(X,Y\)的联合概率分布如下, 计算\(H(X,Y),H(X),H(Y)\)​. 取对数底为\(2\)

Y|X
\(\frac{1}{4}\) \(\frac{1}{4}\)
\(\frac{1}{2}\) 0

\(H(X,Y)=-(\frac{1}{4}*(-2)+\frac{1}{4}*(-2)+\frac{1}{2}*(-1)+0)=\frac{3}{2}\)

为了计算\(H(X)\),需要知道\(X\)的边缘概率密度.

\(H(X)=-(\frac{3}{4}*(log_23-2)+\frac{1}{4}*(-2))\)​​

\(H(Y)=-(\frac{1}{2}*(-1)+\frac{1}{2}*(-1))=1\)

联合熵的性质

  • \(H(X_1,X_2\dots X_n)\geq max\{H(X_1)\dots H(X_n)\}\)
  • \(H(X_1,X_2\dots X_n)\leq H(X_1)+H(X_2)+\dots +H(X_n)\)

2.2 条件熵

\[H(Y|X)=-\sum_{x\in X,y\in Y}p(x,y)log(\frac{p(x,y)}{p(x)}) \]

Intutive explanation

根据定义, \(H(Y|X)=E(f(X,Y))\) \(f:(x,y)\to -log(p(y|x))\)

详细推导

条件熵的性质

  • 条件熵为0的充要条件是Y完全取决于X, 即\(p(x,y)=p(x)\)

  • \(X,Y\)独立, \(H(Y|X)=H(Y)\)

  • 链式法则:\(H(Y|X)=H(X,Y)-H(X)\)

  • 贝叶斯规则:\(H(Y|X)=H(X,Y)-H(X)=H(X|Y)+H(Y)-H(X)\)

2.3 交叉熵

\[H(p,q)=-\sum_{x\in X}p(x)logq(x) \]

其中,\(p(x)\)是真实分布, \(q(x)\)是非真实分布.

交叉熵用来衡量在给定真实分布下, 采用非真实分布所指定策略消除系统不确定性所需付出的努力大小.

2.4 相对熵

\[D_{KL}(P||Q)=-\sum_{x\in X}P(x)log\frac{Q(x)}{P(x)} \]

其中\(p(x)\)是数据真实分布, \(q(x)\)​是数据理论分布或\(p\)​的近似分布

相对熵与交叉熵的关系

\[D_{KL}(P||Q)=-\sum_{x\in X}p(x)log\frac{q(x)}{p(x)}=H(p,q)-H(p) \]

结合上式和交叉熵的意义可知, 相对熵用于衡量在真实分布\(p\)上采用\(q(x)\)所指定的策略,需要多付出的努力.

以编码为例, \(D_{KL}(P||Q)\)就是指对于一个真实分布为\(P\)​的字符集,​假设为分布\(Q\)​制定编码策略多出来的比特数

在机器学习中, 由于交叉熵更简单且和相对熵是函数关系, 通常采用交叉熵作为优化的衡量标准.

相对熵的性质

  • 非负性, 证略

  • 不对称性, 即\(D_{KL}(P||Q)\neq D_{KL}(Q||P)\)

  • 自反性, 即\(D_{KL}(P||P)=0\)

通过上述讨论可知相对熵十分类似于“距离”的概念. 但由于其不满足对称性,通常采用均值来模拟距离, 即

\[\frac{D_{KL}(P||Q)+D_{KL}(Q||P)}{2} \]

3. 信息变化

3.1 互信息

\[I(X,Y)=\sum_{x\in X, y\in Y}p(x,y)log\frac{p(x,y)}{p(x)*p(y)} \]

互信息是变量间相互依赖性的度量.

性质

\(I(X,Y)=H(Y)-H(Y|X)=H(X)-H(X|Y)\)

直观理解为一个变量提供的另一个变量的信息量

3.2 信息增益

\[Gain(P,Q)=D_{KL}(P||Q) \]

机器学习常用信息增益来衡量一个策略的有效性.以分类问题为例, 设\(Q\)​是分类前的分布,\(P\)是分类后的分布. 则信息增益表示使用策略后减少的熵(不确定性减少, 纯度上升)

3.3 基尼系数

\[Gini(D)=1-\sum_{i=1}^{m}p_i^2 \]

直观理解为熵的离散化近似

posted @ 2021-12-17 15:02  xheiyan  阅读(504)  评论(0编辑  收藏  举报