【数据科学复习 - 1】熵
为了让复习不流于形式, 也为了总结自己本学期所学, 拟将复习内容以电子笔记形式记录.
1. 信息熵
1.1 信息熵的定义
由\(log_ab=\frac{log_cb}{log_ca}\)可知, 采用不同底数只会使得\(C\)不同.因此针对不同情况可选用不同的底数.
理解
自信息量:\(I(x)=-logp(x)\),自信息量衡量了单个事件携带的信息量,这与我们对信息量的感性认知是相符的, 即一件事发生概率越高信息量就越低.
而一个系统由随机事件组成,要衡量这个系统的不确定性就可以用平均信息量来衡量. 平均信息量越大则系统的不确定性越大. 从这个思路出发, 很自然地可以得到熵的定义
熵的定义中\(p(x)\)是这个随机变量真实分布的概率. 因此可从一方面理解熵:信息熵衡量了系统的不确定性,熵的大小是我们要消除这个不确定性所需要付出的最小努力.(比如编码长度等)
1.2 熵的性质
-
非负性: \(H(X)\geq0\)
-
单调性:发生概率越高的事件, 其携带的信息量就越低. (由\(p(x)logp(x)\)的单调性决定)
-
可加性:\(H(XY)=H(X)+H(Y)\), 证略
2. 信息熵计算
2.1 联合熵
例题
随机变量\(X,Y\)的联合概率分布如下, 计算\(H(X,Y),H(X),H(Y)\). 取对数底为\(2\)
Y|X | ||
---|---|---|
\(\frac{1}{4}\) | \(\frac{1}{4}\) | |
\(\frac{1}{2}\) | 0 |
\(H(X,Y)=-(\frac{1}{4}*(-2)+\frac{1}{4}*(-2)+\frac{1}{2}*(-1)+0)=\frac{3}{2}\)
为了计算\(H(X)\),需要知道\(X\)的边缘概率密度.
\(H(X)=-(\frac{3}{4}*(log_23-2)+\frac{1}{4}*(-2))\)
\(H(Y)=-(\frac{1}{2}*(-1)+\frac{1}{2}*(-1))=1\)
联合熵的性质
- \(H(X_1,X_2\dots X_n)\geq max\{H(X_1)\dots H(X_n)\}\)
- \(H(X_1,X_2\dots X_n)\leq H(X_1)+H(X_2)+\dots +H(X_n)\)
2.2 条件熵
Intutive explanation
根据定义, \(H(Y|X)=E(f(X,Y))\) \(f:(x,y)\to -log(p(y|x))\)
条件熵的性质
-
条件熵为0的充要条件是Y完全取决于X, 即\(p(x,y)=p(x)\)
-
若\(X,Y\)独立, \(H(Y|X)=H(Y)\)
-
链式法则:\(H(Y|X)=H(X,Y)-H(X)\)
-
贝叶斯规则:\(H(Y|X)=H(X,Y)-H(X)=H(X|Y)+H(Y)-H(X)\)
2.3 交叉熵
其中,\(p(x)\)是真实分布, \(q(x)\)是非真实分布.
交叉熵用来衡量在给定真实分布下, 采用非真实分布所指定策略消除系统不确定性所需付出的努力大小.
2.4 相对熵
其中\(p(x)\)是数据真实分布, \(q(x)\)是数据理论分布或\(p\)的近似分布
相对熵与交叉熵的关系
结合上式和交叉熵的意义可知, 相对熵用于衡量在真实分布\(p\)上采用\(q(x)\)所指定的策略,需要多付出的努力.
以编码为例, \(D_{KL}(P||Q)\)就是指对于一个真实分布为\(P\)的字符集,假设为分布\(Q\)制定编码策略多出来的比特数
在机器学习中, 由于交叉熵更简单且和相对熵是函数关系, 通常采用交叉熵作为优化的衡量标准.
相对熵的性质
-
非负性, 证略
-
不对称性, 即\(D_{KL}(P||Q)\neq D_{KL}(Q||P)\)
-
自反性, 即\(D_{KL}(P||P)=0\)
通过上述讨论可知相对熵十分类似于“距离”的概念. 但由于其不满足对称性,通常采用均值来模拟距离, 即
3. 信息变化
3.1 互信息
互信息是变量间相互依赖性的度量.
性质
\(I(X,Y)=H(Y)-H(Y|X)=H(X)-H(X|Y)\)
直观理解为一个变量提供的另一个变量的信息量
3.2 信息增益
机器学习常用信息增益来衡量一个策略的有效性.以分类问题为例, 设\(Q\)是分类前的分布,\(P\)是分类后的分布. 则信息增益表示使用策略后减少的熵(不确定性减少, 纯度上升)
3.3 基尼系数
直观理解为熵的离散化近似