【数据科学复习 - 1】熵

为了让复习不流于形式, 也为了总结自己本学期所学, 拟将复习内容以电子笔记形式记录.

1. 信息熵
- 1.1 信息熵的定义
- 1.2 熵的性质
2. 信息熵计算
3. 信息变化

1. 信息熵

1.1 信息熵的定义

\[H(X)=-C\sum_{x\in X}p(x)logp(x) \]

由\(log_ab=\frac{log_cb}{log_ca}\)可知, 采用不同底数只会使得\(C\)不同.因此针对不同情况可选用不同的底数.

理解

自信息量:\(I(x)=-logp(x)\)，自信息量衡量了单个事件携带的信息量，这与我们对信息量的感性认知是相符的, 即一件事发生概率越高信息量就越低.

而一个系统由随机事件组成，要衡量这个系统的不确定性就可以用平均信息量来衡量. 平均信息量越大则系统的不确定性越大. 从这个思路出发, 很自然地可以得到熵的定义

\[H(X)=E(I(x))=-C\sum_{x\in X}p(x)logp(x) \]

熵的定义中\(p(x)\)是这个随机变量真实分布的概率. 因此可从一方面理解熵:信息熵衡量了系统的不确定性，熵的大小是我们要消除这个不确定性所需要付出的最小努力.(比如编码长度等)

1.2 熵的性质

非负性: \(H(X)\geq0\)
单调性：发生概率越高的事件, 其携带的信息量就越低. (由\(p(x)logp(x)\)的单调性决定)
可加性：\(H(XY)=H(X)+H(Y)\), 证略

2. 信息熵计算

2.1 联合熵

\[H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(x,y) \]

例题

随机变量\(X,Y\)的联合概率分布如下, 计算\(H(X,Y),H(X),H(Y)\). 取对数底为\(2\)

Y\|X
	\(\frac{1}{4}\)	\(\frac{1}{4}\)
	\(\frac{1}{2}\)	0

\(H(X,Y)=-(\frac{1}{4}*(-2)+\frac{1}{4}*(-2)+\frac{1}{2}*(-1)+0)=\frac{3}{2}\)

为了计算\(H(X)\),需要知道\(X\)的边缘概率密度.

\(H(X)=-(\frac{3}{4}*(log_23-2)+\frac{1}{4}*(-2))\)

\(H(Y)=-(\frac{1}{2}*(-1)+\frac{1}{2}*(-1))=1\)

联合熵的性质

\(H(X_1,X_2\dots X_n)\geq max\{H(X_1)\dots H(X_n)\}\)
\(H(X_1,X_2\dots X_n)\leq H(X_1)+H(X_2)+\dots +H(X_n)\)

2.2 条件熵

\[H(Y|X)=-\sum_{x\in X,y\in Y}p(x,y)log(\frac{p(x,y)}{p(x)}) \]

Intutive explanation

根据定义, \(H(Y|X)=E(f(X,Y))\) \(f:(x,y)\to -log(p(y|x))\)

详细推导

条件熵的性质

条件熵为0的充要条件是Y完全取决于X, 即\(p(x,y)=p(x)\)
若\(X,Y\)独立, \(H(Y|X)=H(Y)\)
链式法则：\(H(Y|X)=H(X,Y)-H(X)\)
贝叶斯规则：\(H(Y|X)=H(X,Y)-H(X)=H(X|Y)+H(Y)-H(X)\)

2.3 交叉熵

\[H(p,q)=-\sum_{x\in X}p(x)logq(x) \]

其中,\(p(x)\)是真实分布, \(q(x)\)是非真实分布.

交叉熵用来衡量在给定真实分布下, 采用非真实分布所指定策略消除系统不确定性所需付出的努力大小.

2.4 相对熵

\[D_{KL}(P||Q)=-\sum_{x\in X}P(x)log\frac{Q(x)}{P(x)} \]

其中\(p(x)\)是数据真实分布, \(q(x)\)是数据理论分布或\(p\)的近似分布

相对熵与交叉熵的关系

\[D_{KL}(P||Q)=-\sum_{x\in X}p(x)log\frac{q(x)}{p(x)}=H(p,q)-H(p) \]

结合上式和交叉熵的意义可知, 相对熵用于衡量在真实分布\(p\)上采用\(q(x)\)所指定的策略，需要多付出的努力.

以编码为例, \(D_{KL}(P||Q)\)就是指对于一个真实分布为\(P\)的字符集,假设为分布\(Q\)制定编码策略多出来的比特数

在机器学习中, 由于交叉熵更简单且和相对熵是函数关系, 通常采用交叉熵作为优化的衡量标准.

相对熵的性质

非负性, 证略
不对称性, 即\(D_{KL}(P||Q)\neq D_{KL}(Q||P)\)
自反性, 即\(D_{KL}(P||P)=0\)

通过上述讨论可知相对熵十分类似于“距离”的概念. 但由于其不满足对称性，通常采用均值来模拟距离, 即

\[\frac{D_{KL}(P||Q)+D_{KL}(Q||P)}{2} \]

3. 信息变化

3.1 互信息

\[I(X,Y)=\sum_{x\in X, y\in Y}p(x,y)log\frac{p(x,y)}{p(x)*p(y)} \]

互信息是变量间相互依赖性的度量.

性质

\(I(X,Y)=H(Y)-H(Y|X)=H(X)-H(X|Y)\)

直观理解为一个变量提供的另一个变量的信息量

3.2 信息增益

\[Gain(P,Q)=D_{KL}(P||Q) \]

机器学习常用信息增益来衡量一个策略的有效性.以分类问题为例, 设\(Q\)是分类前的分布,\(P\)是分类后的分布. 则信息增益表示使用策略后减少的熵(不确定性减少, 纯度上升)

3.3 基尼系数

\[Gini(D)=1-\sum_{i=1}^{m}p_i^2 \]

直观理解为熵的离散化近似

posted @ 2021-12-17 15:02 xheiyan 阅读(504) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

黑岩