Channel Coding Theorem 证明

防盗 https://www.cnblogs.com/setdong/p/17948414
对应于教材 Elements of Information Theory 的 8.7 章节.
在证明定理之前, 先复习一些背景知识, 包括 entropy, WLLN, AEP, joint AEP 和 DMC. 第二节为定理的声明和证明.

1. background

1.1 Entropies 熵

来自于书中的第二章
Entropy:

H(X)=xSXp(x)logp(x)=E[logp(x)]

衡量了一个随机变量的不确定程度/随机性 (uncertainty/ randomness)
Joint entropy 联合熵:

H(X,Y)=xSXySYp(x,y)logp(x,y)

同样地, H(X,Y) 衡量的是 XY 联合的随机性.
Conditional entropy 条件熵:

H(Y|X)=xSXp(x)H(Y|X=x)

H(Y|X) 衡量的是给定 X 后, Y 的随机性.
Mutual information 互信息:

I(X;Y)=H(X)H(X|Y)

X 由于已知 Y 而减少的“信息量”

1.2 Weak Law of Large Number(WLLN)

X1,...,Xn are i.i.d p(x), then

1ni=1nXiin Prob.nE[X]

即样本均值依概率收敛于期望值.

1.3 AEP: Asymptotic Equipartition Property

来自于书中的第3章
Thm. (AEP) If X1,...,Xn are i.i.d p(x), then

1nlogp(X1,...,Xn)in Prob.nH(X)p(X1,...,Xn)in Prob.n2nH(X)

Typical set (典型集) 定义:
The typical set Aϵ(n) with respect to p(x) is the set of sequences (x1,...,xn)SX(n) with the property

2n(H(X)+ϵ)p(x1,...,xn)2n(H(X)ϵ)

Typical set 有以下性质:

  • If (x1,...,xn)Aϵ(n), then H(X)ϵ1np(x1,...,xn)H(X)+ϵ.
  • Pr{Aϵ(n)}>1ϵ for n sufficiently large.
  • |Aϵ(n)|2n(H(X)+ϵ).
  • |Aϵ(n)|(1ϵ)2n(H(X)ϵ) for n sufficiently large.

1.4 Joint AEP

来自于书中的8.6章节
Joint typical set 定义:
The set Aϵ(n) of jointly typical sequences {(xn,yn)} with respect to p(x,y) is the set of n-sequences with empirical entropies ϵ-close to the true entropies:

Aϵ(n)={(xn,yn)SXn×SYn:|1nlogp(xn)H(X)|<ϵ,|1nlogp(yn)H(Y)|<ϵ,|1nlogp(xn,yn)H(X,Y)|<ϵ}

where p(xn,yn)=i=1np(xi,yi).
Thm.(Joint AEP) Let (Xn,Yn) be sequences of length n drawn i.i.d. p(xn,yn)=i=1np(xi,yi). Then,

  • As n, Pr{(Xn,Yn)Aϵ(n)}1
  • |Aϵ(n)|2n(H(X,Y)+ϵ)
    |Aϵ(n)|(1ϵ)2n(H(X,Y)ϵ) for sufficiently large n
  • If (X~n,Y~n)p(xn)p(yn), then
    Pr{(X~n,Y~n)Aϵ(n)}2n(I(X;Y)3ϵ)
    Pr{(X~n,Y~n)Aϵ(n)}(1ϵ)2n(I(X;Y)+3ϵ) for sufficiently large $

1.5 Discrete Memoryless Channel (DMC) without feedback

来自于书中的8.5章节

一个消息 W 首先被编码成长度为 n 的序列 Xn, Xn 是信道的输入, 信道是一概率转移矩阵 (probability transition matrix) p(y|x), 这里的随机性是由于噪声, 信道的输出是 Yn, Yn 随即被解码成 W^.

  • Memoryless 表示 p(yk|xk,yk1)=p(yk|xk), 即输出的概率分布只依赖于此时刻 (k) 的输入, 与之前的输入输出条件独立.
  • W/O Feedback 表示 p(xk|xk1,yk1)=p(xk|xk1), 即输入与之前的输出独立.
  • 因此 channel transition function 可以化简为

p(yn|xn)=i=1np(yi|xi)

接下来是一些重要的定义:

  1. An (M,n) code for channel (SX,p(y|x),SY) consists of:
    An index set {1,2,...,M},
    An encoding function Xn:{1,2,...,M}SXn, yielding codewords xn(1),xn(2),...,xn(M). The set of codewords is called the codebook,
    A decoding function g:SYn{1,2,...,M}, which is a deterministic function.
  2. The information channel capacity:

C=maxp(x)I(X;Y)

  1. Conditional probability of error:

λi=Pr{g(Yn)i|Xn=xn(i)}=yn:g(yn)ip(yn|xn(i))

  1. The maximal probability of error λ(n) for an (M,n) code:

λ(n)=maxi1,...,Mλi

  1. The arithmetic average probability of error Pe(n) for an (M,n) code:

Pe(n)=1Mi=1Mλi

  1. The rate R for an (M,n) code:

R=logMn

单位是 bits/ch. use

2. Channel Coding Theorem

来自于书中的8.7章节
For a discrete memoryless channel, all rates below capacity C are achievable. Specifically, for every rate R<C, there exists a sequence of (2nR,n) codes with maximum probability of error λ(n)0 as n.
Conversely, any sequence of (2nR,n) codes with λ(n)0 must have RC.
针对 DMC, 定理说明了两件事: 1. Achievability: 如果 R 小于信道容量 C, 那么存在一种编码技术使λ(n)任意小, 也就是说接收端收到的错误达到任意小的数值; 2. Converse: 任何无错编码技术一定满足 RC.

2.1 证明 Achievability:

固定 p(x), 首先分析根据 p(x) 随机生成一个 (M,n) code 的概率, 这等价于根据 p(xn)=i=1np(xi) 独立生成 2nR 个 codewords, 这 2nR 个 codewords即为 codebook B. (编码簿)
如果把这个 codebook 写作一个 2nR×n 的矩阵:

B=[x1(1)x2(1)...xn(1)............x1(2nR)x2(2nR)...xn(2nR)]

每行即为 codewords, 如第一行为 xn(1), 是消息 1 的 codeword, 且 p(xn(1))=i=1np(xi(1)).
所以, 生成 B 的概率为

Pr(B)=w=12nRi=1np(xi(w))

考虑以下事件:

  1. 根据上述概率公式生成一个随机的 codebook B.
  2. 向发送端 Tx 和接收端 Rx 揭示 B, 假设 Tx 和 Rx 已知信道 p(y|x).
  3. (均匀)随机选择一个消息 w:

p(W=w)=2nR,w{1,...,2nR}

  1. 通过信道传送 w.
  2. 接收端 Rx 根据 p(yn|xn(w))=i=1np(yi|xi(w)) 接收到长度为 n 的序列 Yn
  3. 如果下列两个条件成立, 则接收端 Rx 输出 w^:
    a) (xn(w^),yn)Aϵ(n) .
    b) 没有其他的 index k 满足 (xn(k),yn)Aϵ(n) .
    如果不存在这样的 w^ 或者不只有一个这样的 w^, 那么报错.
  4. 如果 w^w, 报错.

接下来分析报错的概率 Pr(e):

Ei={(Xn(i),Yn)Aϵ(n)}, 其中 Yn 为信道对Xn(1)的输出, 因为假设了传递的消息 w=1.
根据6(a), 6(b) 和 7的描述可知, 当传递的codeword与接收到的序列不 jointly typical 时 (等价于 E1C), 或一个错误的 codeword与接收到的序列是 jointly typical 时(等价于 E2E2...E2nR), 错误产生. 所以:

Pr(e)=Pr(e|W=1)=Pr(E1CE2E3...E2nR|W=1)

根据union bound, 上式满足

Pr(E1C|W=1)+i=22nRPr(Ei|W=1)

根据 joint AEP 的第一条性质, 对于足够大的 n 有 Pr(E1C|W=1)ϵ.
根据 joint AEP 的最后一条性质, 对于足够大的 n 有 Pr(Ei|W=1)2n(I(X;Y)3ϵ), 带入上式

ϵ+(2nR1)2n(I(X;Y)3ϵ)ϵ+2n(I(X;Y)3ϵR)

当 n 足够大且 R<I(X;Y)3ϵ 时, 上式满足

2ϵ

目前已经证明了当R<I(X;Y)3ϵ 时, 我们可以选择合适的 nϵ 令平均错误率 Pe(x) 小于等于 2ϵ. 这里的平均是在所有的 codewords 和所有的 codebook 上的平均, 正如图片中的 sum over B 和 sum over w.
但是此时只得到了平均错误率的上界, 无法得出定理中的结论, 接下来推最大错误率 λ(n) 的上界.
再次考虑以下事件:

  1. 选择 p(x)=p(x), p(x) 为令 I(X;Y) 最大的输入分布, 也就是 p(x) 是实现通道容量的那个分布.
    所以上面的条件 R<I(X;Y)R<C .
  2. 选择一个平均错误率最小的 codebook B, 所以

Pr(e|B)=12nRi=12nRλi(B)2ϵ

  1. 移除 B 中最差的那半 codewords, 将剩余部分记为 B, 由于平均错误率小于等于 2ϵ 且 概率是非负的, 所以B的最大错误率一定小于等于4ϵ, 否则上一条中的不等式将不成立.

Achievability 证明完毕.

其中, 移除一半codewords 令 index set 减少一半, 即

2nR2nR×12=2n(R1n)

速率 R 只减少了 1n, 且当 n 很大时, 对 R 几乎无影响.

2.2 证明 Converse:

来自于书中的8.8 - 8.10章节
未完待续

posted @   李斯赛特  阅读(99)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?
点击右上角即可分享
微信分享提示