信息熵与自信息
Entropy
Topic 1: 定义在事件上的函数
自信息
自信息是一个事件的信息量的度量,基本思想是概率越小,事件蕴含的信息量越大,满足如下性质:
- 非负性:\(f(x) \geq 0\)
- 单调:如果事件\(a,b\), \(P(a) < P(b)\), 则 \(f(a) > f(b)\)
- \(f(a) = 0\) iff \(P(a) = 1\)
- \(P(a) = 0\) 则 \(f(a) = \infin\)
- 独立可加性:\(f(a, b) = f(a) + f(b)\) when \(a\) and \(b\) are independent.
可以证明:\(f(x) = -\log P(x)\) 满足上述性质。
定义:样本空间中的一个事件 \(x\) 的自信息为
单位为\(bit\)
Insight:
- 自信息是定义在一个事件上的,而不是一个分布上。
- 在发生前,自信息表示的是不确定性
- 在发生后,自信息表示的是信息量
联合自信息
定义:样本空间中两个事件 \(x, y\) 的概率的联合自信息为
条件自信息
定义:样本空间中,给定事件 \(y\) 发生的条件下,事件 \(x\) 的条件自信息为
Insight:
- \(y=b_i\)给定时,\(x\) 发生前的不确定性
- \(y=b_i\)给定时,\(x\) 发生后的信息量
自信息之间的联系:
同理
互信息
已知 I(x)是 x 事件所含有的信息量,I(x|y)是 x 事件在 given y 事件发生后的信息量,那么可以定义两者的差值为 y 事件带给 x 事件的信息量(增益)
(此处添加下标,其实上文也应该添加下标,指给定样本空间的意思)
互信息的性质:
- \(I(x;y) = I(y;x)\)
- 当\(x,y\)独立时,I(x;y) = 0 (\(y\)无法给\(x\)带来信息)
- 可正可负
- \(I(x;y) \leq I(x) / I(y)\)
额外的条件互信息:
Topic 2:定义在概率分布上的函数
(离散)信息熵
定义为一个样本空间上所有随机事件(随机变量是离散的)的自信息的期望,熵在物理意义上是平均意义下对随机事件不确定性/信息量的度量,计算机意义上是平均意义上对随机变量的编码长度。
Example:投掷均匀硬币的信息熵为 1bit,即可以使用一位编码表示所有结果
- 其中,定义\(0log0=0\),使用极限定义\(\lim_{x\to \infin} xlogx = 0\)
- 使用拉格朗日乘子法获得 H(X)的最大值
对所有取值依次求偏导,发现 H(X)最大值(拉格朗日里的最小值)在均匀分布时取到。
-
\(H(X) \geq 0\)
-
ex:微分熵,定义在连续概率分布上的信息熵
differential entropy 可以为负数,同时在均值和方差的连续分布当中,高斯分布具有最大的熵
条件信息熵
定义为一个样本空间内,Y 事件发生时,X 事件发生的条件自信息期望
涉及到两个概率分布,因此需要对一个事件发生和所有事件发生的期望进行定义
一个事件发生时,X 分布的信息量期望
Y 分布的事件发生时,X 分布的信息量的期望的期望,引申全期望公式
与条件互信息相同,表示的是 Y 分布对 X 分布贡献之后的信息量,其差值可以用另外一个函数表示,定义在 Topic 3。
联合信息熵
定义为两个概率分布的联合自信息的期望
Prior Knowledge
-
上凸函数/Concave Function
\[\alpha f(x) + (1-\alpha)f(x) \leq f(\alpha x + (1-\alpha) x),\ \alpha \in [0,1] \] -
Jensen 不等式
若 f 严格上凸(等号仅取在\(\alpha=0/1\)或者\(x_1=x_2\)),则\[\sum_k \lambda_k f(x_k) \leq f(\sum_k \lambda_k x_k), \ \sum_k \lambda_k = 1 \]\(proof\):
-
\(n=2\) 时,\(\lambda_1 f(x_1) + \lambda_2 f(x_2) \leq f(\lambda_1 x_1 + \lambda_2 x_2)\), \(\sum \lambda_i = 1\), 并且等号仅在 \(\lambda_1 = 1, \lambda_2 = 0\)或者\(x_1 = x_2\)时取到
-
假设对于 \(n=k\) 时成立,那么对于 \(n=k+1\) 时,要证明
\[\sum_1^{k+1} \lambda_i f(x_i) \leq f(\sum_{i+1} \lambda_i x_i) \]即证明
\[\begin{align} \sum_1^{k} \lambda_i f(x_i) + \lambda_{k+1} f(x_{k+1}) \leq f(\sum_1^{k} \lambda_i x_i + \lambda_{k+1} x_{k+1}) \end{align} \]已知
\[\sum_1^k \lambda_i = 1 \]将 inequality 左边第一项转化为合一项,即
\[ \sum_1^{k} \lambda_i f(x_i) = \sum_1^k \lambda_i \sum_1^{k} \frac{\lambda_i}{\sum_1^k \lambda_i} f(x_i) \leq \sum_1^k \lambda_i f(\frac{\lambda_i}{\sum_1^k \lambda_i} x_i) \]= 当且仅当 \(\lambda_i = 1\) 或者 所有\(x_i\)均相等时取等号
于是(1)变为
\[\begin{align} \sum_1^{k} \lambda_i f(x_i) + \lambda_{k+1} f(x_{k+1}) \leq \sum_1^k \lambda_i f(\frac{\lambda_i}{\sum_1^k \lambda_i} x_i) + \lambda_{k+1} f(x_{k+1}) \end{align} \]又因为\(\sum_1^{k} \lambda_i + \lambda_{k+1} = 1\)
再使用一次 Jensen 不等式,得到
\[\begin{align} \sum_1^k \lambda_i f(\frac{\lambda_i}{\sum_1^k \lambda_i} x_i) + \lambda_{k+1} f(x_{k+1}) \leq f(\sum_1^k \lambda_i \frac{\lambda_i}{\sum_1^k \lambda_i} x_i + \lambda_{k+1} x_{k+1}) = f(\sum_1^{k+1} \lambda_i x_i) \end{align} \]= 当某一个\(\lambda_i = 1\) 或者\(\frac{\lambda_i}{\sum_1^k \lambda_i} x_i = x_{k+1}\)相等时取等号
分析取等号条件:
当所有\(x_i,i \leq k\)相等,且\(\frac{\lambda_i}{\sum_1^k \lambda_i} x_i = x_{k+1}\)时取等号,可得所有的\(x_i, i \leq k+1\)相等时,取等号。 -
-
\(\log x\)是上凸函数,\(E[\log x] \leq \log E[x]\)
KL Divergence
若 P,Q 定义在同一个概率空间的不同测度,那么 KL Divergence 定义为
Properties:
-
KL Divergence 不是一个 metric/dist,因为 metric 需要满足以下性质(复习 mml,dist 可由 norm 确定:\(d(x.y) = \| x-y \|\))
- 对称性
- 非负性
- 三角不等式
-
可以用来描述概率分布的距离(但是必须定义在同一个概率空间之上)
-
\(D(P\|Q) \geq 0\), '=' iff \(Q(x) = P(x)\)
\(proof\):
根据 Jensen 不等式的取等号条件,= iff \(\frac{q(x)}{p(x)}\)对所有\(x\)的均相等, 又因为概率归一,所以所有的\(q(x) = p(x)\)
Basic Properties
- 熵不依赖分布的位置(大小)
- 离散熵的非负性
- 小概率事件对熵的影响很小
\(\lim_{\epsilon \to 0} - \epsilon \log \epsilon\) 因此,\(\lim_{\epsilon \to 0} H(p_1,\dots, p_n - \epsilon, \epsilon) = H(p_1, \dots, p_n)\) - \(H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)\)
- 离散熵的最大值取在均匀分布(证明见拉格朗日乘子法)
- \(H(X)\)严格上凸
- \(H(Y|X) \leq H(Y)\),等号当且仅当 \(X \perp Y\)
- Chain Rule: \(H(X_1, \dots, X_n) = \sum_i H(X_i | X_1, \dots, X_{i-1})\)
- 联合熵不大于各自熵之和:\(H(X_1, \dots, X_n) \leq \sum H(X_i)\),使用 7 和 8 可证明,等号当且仅当 \(X_i \perp X_j, \forall i \neq j\)
Topic 3: Mutual Information
平均互信息
集合\(Y\) 与 事件 \(x\) 的平均互信息定义为
平均互信息非负:\(I(x;Y) = D(p(y|x) \| p(y)) \geq 0\)
集合\(Y\) 与 集合 \(X\) 的平均互信息定义为
物理意义:\(I(X;Y)\) 表示 \(X\) 通过 \(Y\) 获得的平均信息量
性质:
- \(I(X;Y) = I(Y;X) = H(X) - H(X|Y) = H(Y) - H(Y|X)\)
- \(I(X;Y) \geq 0\), because \(I(x;Y) \geq 0\)
- \(I(X;Y) \leq H(X) / H(Y)\)
平均条件互信息
集合\(Z\) 与 集合 \(X\) 与 集合 \(Y\) 的平均条件互信息定义为