Loading

信息论基础概念、定理(一)

熵、相对熵、互信息

熵、信息量

信息量\(I = -\log(P)\)

  • 对称
  • 非负

条件熵、联合熵

\[H(XY) \]

联合熵链式法则

\[H(X,Y) = H(X|Y) + H(Y)$$(联合熵增) $$H(X,Y|Z) = H(X|Z) + H(Y|X,Z)$$?? \]

相对熵、互信息

\[D(p||q) \]

  • \(D \geq 0\)
    • Jensen不等式
    • log 严格凸函数
  • 非对称
    • 相对熵不是距离
  • 互信息与相对熵
    • \(I(X;Y) = D(p(x,y)||p(x)p(y)) \geq 0\)
    • \(I(X;Y) = \min D(p_{XY}||q_{X}q_{Y})\)
      • 互信息就是最相似的独立分布的相对熵
      • \(D(p_{XY}||q_{X}q_{Y}) - D(p_{XY}||p_{X}p_{Y})\)

\[I(X;Y) = H(X)-H(X|Y) = H(Y)-H(Y|X) \]

熵的链式法则

\[H(X_{1},\dots,X_{n}) =H(X_{1})+H(X_{2}|X_{1}) + H(X_{3}|(X_{1},X_{2})) \]

条件互信息

given 哪个变量,就相当于在韦恩图当中抠除哪个变量

互信息的链式法则

\[I((X_{1},\cdots,X_{n});Y) = I(X_{1};Y) + I(X_{2};Y|X_{1}) \]

条件相对熵

相对熵的链式法则
联合=自身+条件

\[D(p(x,y)||q(x,y)) = D(p(x)||q(x)) + D(p(y|x) + D(x|y)) \]

条件熵的性质

\[D(p||q) \leq 0 \]

Jensen不等式

Jensen不等式:对于凸函数\(f\)以及随机变量\(X\)

\[Ef(X) \geq f(EX) \]

几个定理

条件互信息的非负性

\[I(X;Y|Z) = D(p(x,y|z)||p(x|z),p(y|z)) \geq 0 \]

当且仅当x,y关于z条件独立,等号成立

\[H(X)\leq \log|\mathcal{X}| \]

\[H(X) - H(X|Y) = I(X;Y) \geq 0 \]

熵的独立界

\[\begin{align*} H(X_{1},\cdots,X_{n}) &= H(X_{1}) + H(X_{2}|X_{1}) + H(X_{3}|X_{1},X_{2}) \\ &\leq \sum H(X_{i}) \end{align*}\]

当且仅当\(X_{i}\)相互独立时等号成立

\[I(X;Y)\geq I(X;g(Y)) \]


马尔可夫分布

如果不记得符号可以自己定义

\[X\to Y\to Z \]

\[P(XYZ) = P(XY)P(Z|Y) = P(Y)P(X|Y)P(Z|Y) \]

\[I(X;Z|Y) = 0 \]

数据处理不等式

\(X\to Y\to Z\)

  • \(I(X;Z) \leq I(X;Y)\)
    • 互信息不增加
  • $I(X;Y|Z) = 0 \leq $

Fano 不等式

费诺不等式

\[X\to Y \to \hat{X} \]

\[H(P_{e}) + P_{e}\log(|\mathcal{X}|) \geq H(X|\hat{X})\geq H(X|Y) \]

\[1+ P_{e}\log(|\mathcal{X}|) \geq H(X|Y) \]

\[P_{e}\geq \frac{H(X|Y)-1}{\log|\mathcal{X}|} \]

费诺不等式的几个推论

渐进均分性

信息论重要概念

AEP

AEP的基础:辛钦大数定律(频率依概率收敛)

\[-\frac{1}{n}\log p(\mathbf{x}^{(n)}) \to H(X) \]

\[\text{Pr}(|p(\mathbf{x}^{(n)})-2^{-nH(X)}|> \varepsilon) \to 0 \]

含义解释

随着序列增长,一个长度为n的序列出现的概率将会趋近一个和熵有关的值:\(2^{-nH}\)。序列越长,这个概率的估计就会越准确

⭐典型集

for iid \(x_{1},\dots,x_{n}\),\(\mathbf{x}^{(n)} = \{x_{i}\}_{i= 1}^{n}\)

\[A_{\varepsilon}^{(n)} = \{\mathbf{x}^{(n)}| p(\mathbf{x}^{(n)}) \in [2^{-n(H+\varepsilon)},2^{-n(H-\varepsilon)}]\} \]

典型集由序列长度\(n\)和误差限\(\varepsilon\)确定

典型集的性质

  • 元素出现概率

    \[-\frac{1}{n}\log p(\mathbf{x}^{(n)}) \in [H-\varepsilon,H+\varepsilon] \]

  • 典型集元素概率估计的准确性

    \[\begin{align*} \text{Pr}\{A_{\varepsilon}^{(n)}\} &= \text{Pr}(|p(\mathbf{x}^{(n)})-2^{-nH(X)}|> \varepsilon) \\&> 1-\varepsilon \\ \mathbf{x}^{(n)}\in A_{\varepsilon}^{(n)} \end{align*} \]

  • 典型集包含的序列个数

    • 总有

    \[|A_{\varepsilon}^{(n)}| \leq 2^{n(H(x)+\varepsilon)} \]

    • 当n充分大时

    \[(1-\varepsilon)2^{n(H(x)-\varepsilon)}\leq |A_{\varepsilon}^{(n)}| \]

熵与平均码长

熵与平均码长的关系:对于任意小的\(\varepsilon\),以及iid\(X\sim p(x)\)生成的序列\(\mathbf{x}^{(n)}\),如果n充分大,则存在可逆编码

\[E(\frac{1}{n}l(\mathbf{x^{(n)}})) \leq H + \varepsilon \]

随机过程

定义

stochastic process is simply an indexed sequence of random variables.

Stanford

CMU

  • 随机过程
    • \(\text{Pr}(X^{n}= x^{n})\)
    • 代表分布的演变过程
    • \(x^{n}\)是不同状态上的一个概率分布
  • 平稳
    • \[p(x_{1},x_{2},\cdots,x_{n}) = p(x_{1+\Delta t},x_{2+\Delta t},\cdots,x_{n+\Delta t}) \]

  • 马尔可夫
    • 条件独立
    • \[p(x_{n+1}|x_{1},\cdots,x_{n})= p(x_{n+1}|x_{n}) \]

  • 时间不变马尔可夫
    • \(p(x_{n+1}|x_{n}) = p(x_{2}|x_{1})\text{const}\)
    • 通常假定马尔可夫过程具有时间不变性

时间不变的马尔可夫过程可以由概率转移矩阵\([P_{ij}]\)表征

\[p(x_{n+1} =j|x_{n} = i) = P_{ij} \]

  • 不可约
    • 任意状态间,有限步可达
  • 非周期
    • 每个状态经过不同路径回到自身,路径长度不可约??

马尔可夫性

基本定义

\[H(X_{n}|X^{n-1}) = H(X_{n}|X_{n-1}) \]

条件可约

\[H(X_{n}|X^{T_{1}:T_{2}}) = H(X_{n}|X^{T_{2}}),n>T_{2}>T_{1} \]

平稳分布

若有限状态马尔可夫链是不可约的和非周期的,则它的平稳分布唯一

\[n\to \infty, X^{n} \to X^{*} \]

如何计算平稳分布

给我一个随机过程
就是一个概率转移矩阵

给定概率转移矩阵,计算平稳分布

熵率

每字符熵、极限条件熵

- Question: 如何定义一个序列的熵?

\(H(X_{1},\cdots,X_{n})\)随机过程的熵,就是针对这个\(X_{i}\)序列所生成的联合概率,计算出来的信息熵。

也就是说,序列的熵,就是随机变量序列的联合熵

熵率是用来刻有时序依赖关系的序列的熵增长速度的物理量

\[\lim_{n\to \infty}\frac{1}{n}H(X_{1},\cdots,X_{n}) \]

\[\lim H(X_{n}|X_{1},\cdots,X_{n-1}) \]

定理:对于平稳随机过程

  • 极限平均字符熵 = 极限条件熵

平稳随机过程的若干结论

序列条件熵递减

\[\begin{align*} H(X_{n}|X^{n-1}) &\leq H(X_{n}|X_{2},\cdots,X_{n-1}) \tag*{remove $X_{1}$} \\ &\leq H(X_{n-1}|X^{n-2}) \tag*{stationarity} \\ &\leq H(X_{i}|X^{i-1}) \tag*{for every $i<n$} \end{align*}\]

初始条件熵递增

\[\begin{align*} H(X_{n}|X_{1}) &\geq H(X_{n}|X_{2},X_{1})\tag*{add condition} \\&=H(X_{n}|X_{2}) \\&=H(X_{n-1}|X_{1}) \end{align*}\]

另有

\[\begin{align*} &H(X_{0}|X_{n}) = H(X_{0}) - I(X_{0};X_{n}) \\&H(X_{0}|X_{n+1}) = H(X_{0}) - I(X_{0};X_{n+1}) \\&H(X_{0}|X_{n+1}) - H(X_{0}|X_{n})=I(X_{0};X_{n}) - I(X_{0},X_{n+1})\geq 0 \tag*{DPI} \end{align*}\]

平稳马尔可夫链的熵率

\[H(\mathcal{X}) = \lim H(X_{n+1}|X_{1},\cdots,X_{n}) = \lim H(X_{n+1}|X_{n}) = H(X_{2}|X_{1}) \]

加权图上随机游动的熵率

例题

热力学第二定律

一些很有趣的结论

数据压缩/最短期望码长

定义

\[C:\mathcal{X}\to D^{*} \]

\[C^{*}:\mathcal{X}^{*}\to D^{*} \]

  • 信源

  • 期望码长
  • 非奇异
    • 字母不同,编码不同
  • 唯一可译码
    • 任一编码字符串只来源于惟一可能的倌说字符串
  • 前缀码=即时码
    • D叉树
非奇异码>唯一可译码>即时码

Kraft不等式

前缀码存在的充要条件

\[\sum_{i}^{} D^{-l_{i}} \leq 1 \]

最优前缀码的界

随机变量X的任一D元即时码的期望长度必定大于或等于\(H_{D}(X)\)

\[L = \sum p_{i}l_{i} \geq H_{D}(X) \]

  • 利用拉格朗日乘子法证明最优码长的下界
  • 利用相对熵的非负性证明

\[\begin{align*} L - H_{D}(X) &= \sum_{i} p_{i}l_{i} + \sum_{i} p_{i}\log_{D}p_{i} \\&= \sum_{i} p_{i}\log_{D} D^{l_{i}} + \sum_{i} p_{i}\log_{D}p_{i} \\&= \sum_{i} p_{i}\log_{D}p_{i} - \sum_{i} p_{i}\log_{D}D^{-l_{i}} \\&= \sum_{i} p_{i}\log_{D}\frac{p_{i}}{D^{-l_{i}}} \\&= \sum_{i} p_{i}\log_{D}\frac{p_{i}}{\sum_{i}D^{-l_{i}}}\frac{\sum_{i}D^{-l_{i}}}{D^{-l_{i}}} \\&= \sum_{i} p_{i}\log_{D}\frac{p_{i}}{r_{i}} - \sum_{i} p_{i}\log_{D}\sum_{i}D^{-l_{i}} \\&\geq D(p||q) + 0 \geq 0 \end{align*}\]

\[r_{i} = \frac{D^{-l_{i}}}{\sum_{i}D^{-l_{i}}} \]


\[L^{*} = \sum_{i}p_{i}l_{i}^{*} \in [H_{D}(X),H_{D}(X)+1) \]

  • 最大信息容量
  • 最短码长

随机过程

\[\frac{H(X_{1},\cdots,X_{n})}{n} \leq L_{n}^{*} \leq \frac{H(X_{1},\cdots,X_{n})}{n} + \frac{1}{n} \]

\[H(\mathcal{X}) \leq L_{n}^{*} \leq H(\mathcal{X}) + \frac{1}{n} \]

平稳过程

对于平稳过程

\[L_{i}^{*} \to H(\mathcal{X}) \]

其中

\[L_{n}^{*} = \frac{1}{n}\sum_{i}p(\mathbf{x}_{i}^{n})l(\mathbf{x}^{n}), \mathbf{x}_{i}^{n} \in \mathcal{X}^{n} \]

为长度为\(n\)的序列\(\mathbf{x}_{i}^{n}\)的平均码字长度

唯一可译码充要条件/McMillan不等式

\[\sum_{i}D^{-l_{i}}\leq 1 \]

从码字长度集的角度考虑,惟一可译码类不能提供比前缀码类更优的选择

香农编码/偏码

十进制小数转二进制
乘二取整

\[l(x) = \lceil -\log p(x) \rceil \]

- Question: 编码都只是针对信源吗?
- Question: 信源都是不变的吗?

香农码具有竞争最优性

哈夫曼编码是最优编码

\[H(X)\leq L \leq H(X)+1 \]

最优码有很多

最优码的性质

  • 最长的两个码字
    • 具有相同长度
    • 仅在最后一位上有所差别,且对应于两个最小可能发生的字符
  • 其长度序列与按概率分布列排列的次序相反

对于二进制分布,赫夫曼码与香农码相同,且平均码长都达到熵界

Shannon-Fano-Elias 编码

形式化定义,理论分析更加方便

\[H(X)\leq L \leq H(X)+2 \]

竞争最优性

香农码具有竞争最优性

\[\text{Pr}(l_{sh}(X) \geq l^{'}(X) + c) \leq \frac{1}{2^{c-1}} \]

均匀比特生成任意分布

一个\(p(Z=0) = 0.5\)的信源就是一个产生均匀比特的信源。

给定一个均匀比特串, 可以将其映射到某个分布上

定理:对于任意一个随机变量\(X\),可以用一个完全二叉树进行编码,生成\(X\)对应分布的编码,设这个编码的期望长度为T

\[ET \in [H(X),H(X)+2) \]

平均抛掷\(H(X)+2\)次硬币就足够摸拟随机变量\(X\)

- Question: 平均的含义是什么
+ Note: 意思应该是对于X的一个取值x,平均需要ET个均匀比特进行编码
+ 也就是期望的均匀比特数
- Question: 为什么这个结论和哈夫曼码的期望码长不一样呢
- 感觉哈夫曼树就是一个最优的均匀比特编码方案啊
+ Note: 也就是说这种编码方案不是最优码
- Question: 这里有明确的编码方案吗

信道容量

信息论的中心问题

定义

信道

\[p(y|x) \]

  • 离散无记忆信道

\[C = \max_{p(x)}I(X;Y) \]

- Question: 为什么不用H(X|Y)定义?
- H(X|Y) = H(X) - I(X;Y)

\(p(x)\)指代所有可能都输入分布

- Question: 什么意思?

常见信道容量

  • 无噪声二元信道 & 无重叠输出的有噪声信道

    • \(1\)
  • 有噪声的打字机信道

    • P122 无噪声子集?
  • 二元对称信道(有噪声)

    • \(1-H(p)\)

      证明

      \[\begin{align*} C &= \max_{p(X)}I(X;Y) \\&= \max_{p(X)}H(X) - H(X|Y) \end{align*}\]

      注意:熵只和分布的形态有关,和变量的取值本身没有关系
      

      \[\begin{align*} H(X|Y) &= \sum_{y \in \mathcal{Y}}p(y)H(X|Y = y) \\&= \sum_{y \in \mathcal{Y}}p(y)H(p) \\&= H(p) \end{align*}\]

      \[\begin{align*} C &= \max_{p(X)} H(X) - H(p) \\&= 1 - H(p) \end{align*} \]

  • 二元可擦除信道

    • \(1-p\)

      证明

      \(p(x = 0) = p\)

      \[\begin{align*} C &= \max_{p} H(p)- \sum_{y\in \mathcal{Y}}p(y)H(X|Y = y) \\&=\max_{p}H(p)- [p(1-\alpha)\times 0 + (1-p)(1-\alpha)\times 0 + \alpha] \\&= \max_{p}H(p)- \alpha \\&=1-\alpha \end{align*}\]

对称信道

定义

  • 对称
  • 弱对称

对于弱对称信道有

\(C = \log(|\mathcal{Y}|)-H(\text{row})\)

\(\mathcal{Y}\)是矩阵的列数,当输入字母表上的分布为均匀对达到该容量。

信道容量的一些性质

  • \(C\geq 0\)
  • \(C\leq \log|\mathcal{X}|,C\leq \log|\mathcal{Y}|\)
  • \(I(X;Y)\)是关于\(p(x)\)的连续凹函数,只有一个全局最大值

信道编码定理

离散无记忆信道

离散信道的形式化

  • 输入集合\(\mathcal{X}\)
  • 概率转移矩阵\(p(y|x)\)(以字母为元素)
  • 输出字母集\(\mathcal{Y}\)

(M,n)码

  • 下标集
    • 序列当中每个元素\(\text{seq}_{i} = s_{i}\)的序号\(i \in \{1,\cdots,M\}\)
  • 编码函数
    • \(f:\{i\} \text{ i.e. } \{s_{i}\} \to \mathbf{x}_{i}^{(n)} \in \mathcal{X}^{n}\)
  • 码簿
    • \([x^{(n)}(1),\cdots,x^{(n)}(M)]\)
  • 译码函数(deterministic function)
    • \(g:\mathbf{x}_{i}^{(n)} \to \{i\} \text{ i.e. } s_{i}\)
  • 条件误差概率\(\lambda_{i}\)
    • 发送信息\(i\)时的出错概率
  • 最大误差函数
  • 平均误差概率
    • \(P_{e}^{(n)} \leq \lambda_{(n)}\)
  • 码率:\(R = \log\frac{M}{n}\)
    • 表示信道每个字符负责代表多少个原始数据
  • 可达,对于\((\lceil2^{nR}\rceil,n)\)
    • \(n\to 0,\lambda^{(n)} \to n\)
  • 信道容量 = 可达码率的上确界

联合典型序列

定义

这类似于典型集的定义

\[A_{\varepsilon}^{(n)} = \{x^{(n)}: p(x^{(n)} \in [2^{-n(H(X)+\varepsilon),2^{-n(H(X)-\varepsilon)}}])\} \]

\[|\frac{1}{n}p(x^{(n)}) - H(X)| \leq \varepsilon \]

联合AEP

前提

  • \(X^{(n)},Y^{(n)} = \{(x^{(n)},y^{(n)}):p(x^{(n)},y^{(n)}) = \prod p(x_{i},y_{i})\}\)
    • 序列生成,各个时间步独立
    • 各个序列独立同分布

性质

  • 序列有很高概率包含在典型集当中

    - Question: 这里的高概率是什么意思
    - 一个序列是否在典型集中不是一个确定的事情吗?
    
    • \(n\to\infty,\text{Pr}[(x^{(n)},y^{(n)} )\in A_{\varepsilon}^{(n)}]\to 1\)
  • 联合典型序列的大小有上界

    • \[|A_{\varepsilon}^{(n)}| \leq 2^{n(H(X,Y) + \varepsilon)} \]

  • 如果\(\tilde{X}^{(n)},\tilde{Y}^{(n)}\)具有相同边际分布\(p(x^{n}) = p(y^{n})\),那么联合典型序列估计的概率准确性\(\pi= \text{Pr}\{(x^{n},y^{n})\in A_{\varepsilon}^{(n)}\}\)也有上下界

    • \(\pi \leq 2^{-n(I(X;Y)-3\varepsilon)}\)
    • \(\pi \geq (1-\varepsilon)2^{-n(I(X;Y)+3\varepsilon)}\)

和单一分布AEP相比

  • \(|A_{\varepsilon}^{(n)}| \leq 2^{n(H(x) _+\varepsilon)}\)
  • \(|A_{\varepsilon}^{(n)}| \geq (1-\varepsilon)2^{n(H(x) - \varepsilon)}\)

联合典型序列的理解

可能的输入序列\(X^{n}\)存在典型集,规模为\(|A(X)| \simeq 2^{n(H(X))}\)

可能的输出序列\(X^{n}\)存在典型集,规模为\(|A(Y)| \simeq 2^{n(H(Y))}\)

给定输入,输出的映射有典型集\(|A(Y|X)| \simeq 2^{H(Y|X)}\)

因此,可区分的输入序列数量为
\(\frac{A(Y)}{A(Y|X)} = 2^{I(X;Y)}\)
任意其他码字与接收到的序列是联合典型的概率是\(2^{I(X;Y)}\)

联合典型序列\(|A(X,Y)| \simeq 2^{H(X,Y)}\)

这个定理有什么实际用途吗

信道编码定理:可达性

对于传输过程(这是一个马尔可夫链)

  • \((\lceil 2^{nR}\rceil,n)\)码满足最大误差概率\(\lambda^{(n)}\to 0\)
  • \(R<C\)

二者等价

多次使用信道井不增加每次传输的信息容量比特

  • \(H(W|\hat{W}) \leq 1 + P_{e}^{(n)}\)
  • \(I(Y^{(n)};X^{(n)}) \leq nC\)

信道编码定理的逆定理:平均误差概率

\(W \sim \text{Uni}(\{1,2,\cdots,2^{nR}\})\)

\(H(W) = -n\frac{1}{n}\log \frac{1}{n} = \log n\)

如何达到最大码率

带反馈的信道

(X_{1};X_{4}|X_{2}) \overset{\text{条件独立}}{=}0$$反馈在简化编码和译码方面可以起到很大的作用。然而,它并不能增加信道的容量。

信源信道分离定理

  • 每字符最小期望码长,对于随机平稳过程,\(l^{*} \to H(\mathcal{X})\)
    - Question: 为什么书里写的是R>H
    
  • 信道编码定理,\(R<C\)

  • 对于有限字母表信源\(\mathcal{V}\),如果满足AEP(序列各个时间步iid),以及\(H(\mathcal{V})< C\)
  • 那么存在信源-信道编码使得\(\text{Pr}(\hat{V^{(n)}} \neq V^{(n)})\to 0\)
  • 反之,大于信道容量,则无法达到任意低的错误概率

在信道容量当中常用的费诺不等式的形式

\[\begin{align*} H(V^{(n)}|\hat{V^{(n)}}) &\leq 1 + \text{Pr}(V^{(n)} <= V^{(n)}) \log |\mathcal{V^{(n)}}| \\&\overset{\text{log}}{\leq} 1 + \text{Pr}(V^{(n)} <= V^{(n)}) \boldsymbol{n} \log |\mathcal{V}| \end{align*}\]

能够通过信道传输平稳遇历信源当且仅当\(H(\mathcal{X}) < C\)


数据压缩与数据传输的关系

  • 数据压缩的熵界

    • 最优唯一可译码/前缀码长度\(L\in [H,H+1)\)
    • 基于AEP
  • 信道容量

    • 信道容量 = 最大可达码率
    • 基于联合AEP
  • 信源信道分离定理

    • 熵率<码率,\(P_{e}^{n} \to 0\)
    • 基于费诺不等式对于误差概率的估计以及数据处理不等式
posted @ 2022-06-26 21:59  ZXYFrank  阅读(610)  评论(0编辑  收藏  举报