Overview : The philosophy behind information theory

Po-Ning Chen, Professor

Institute of Communications Engineering

National Chiao Tung University

Information theory: A mathematical framework for the theory of communi-cation by establishing the fundamental limits on the performance of various communication systems.

A Mathematical Theory of Communication

引言

最近，各种调制方法的发展，如脉码调制（PCM）和脉冲位置调制（PPM），它们通过交换带宽来提高信噪比，这增强了对通信理论的兴趣。这种理论的基础包含在Nyquist和Hartley的重要论文中。在本文中，我们将扩展这个理论，包括许多新的因素，特别是信道中的噪声效应，以及由于原始消息的统计结构和信息最终目的地的性质而可能的节省。

只要传输率\(R\)低于某个固定的数量\(C\)，就可以通过噪声通信信道以固定的正速率\(R\)发送携带信息的信号，并且错误的概率可以任意小。这个数量取决于信道的统计特性；他给这个数量命名为信道容量。

通信的数学理论

在符号长度不同且对允许的序列有约束的更一般情况下，我们给出以下定义：定义：离散信道的容量\(C\)由下式给出

\[C = {\operatorname{Lim}}_{T {\rightarrow} {\infty}}\frac{\log N(T)}{T} \]

其中\(N(T)\)是持续时间\(T\)的允许信号数量。

他进一步宣称，随机源可以在最小速率下无失真压缩，这个速率由源的固有信息量决定，他称之为源熵。选择、不确定性和熵

我们将离散信息源表示为一个马尔可夫过程。我们能否定义一个量来衡量这样一个过程“产生”的信息量，或者更好地说，信息是以什么速率产生的？

定理2：唯一满足上述三个假设的\(H\)形式为：

\[H = {-} K\mathop{{\sum}}\limits_{i = 1}^np_{i}\log p_{i} \]

其中\(K\)是一个正常数。

1.1: Overview

香农继续证明了：

带噪声的离散信道的基本定理

定理 11：设离散信道的容量为\(C\)，离散源每秒的熵为\(H\)。如果\(H \leq C\)，则存在一种编码系统，使得源的输出可以通过信道传输，错误频率可以任意小（或者说含糊度可以任意小）。如果\(H > C\)，可以对源进行编码，使得含糊度小于\(H - C + \epsilon\)，其中\(\epsilon\)是任意小的。没有任何编码方法可以使含糊度小于\(H - C\)。

信息理论家逐渐扩展了他们的兴趣，超出了通信理论，开始探讨在其他几个相关领域的基本问题。其中我们提到：
统计物理学（热力学、量子信息理论）；
计算和信息科学（分布式处理、压缩、算法复杂性、可解性）；
概率论（大偏差、极限定理、马尔可夫决策过程）；
统计学（假设检验、多用户检测、费舍尔信息、估计）；
随机控制（在通信限制下的控制、随机优化）；
经济学（博弈论、团队决策理论、赌博理论、投资理论）；
数学生物学（生物信息论、生物信息学）；
信息隐藏、数据安全和隐私；
数据网络（网络流行病学、自相似性、流量调节理论）；
机器学习（深度神经网络、数据分析）。

Chapter 1 Introduction (Not in text)(ESSENTIAL)

什么是信息？

不确定性（Uncertainty）（对信息进行定义（对问题进行定义））

- 信息是接收者之前不确定的消息（Information is a message that is previously uncertain to receivers.）

信息的表示（如何表示信息？使得其便于存储与传达？）

获得信息后，人们可能希望存储或传达它；这就引出了一个问题：

如何表示信息以便于存储或便于传达？

Representation of information

如何表示信息以便于存储或传达？

一位工程师的回答：（符号化）

现实：

26个英文字母及其组合\({\Rightarrow}\) 语言

计算机与数字通信：

0-1符号及其组合\({\Rightarrow}\) 编码。

信息被符号化后，这些符号的“存储”或“传达”操作变得简单明了。

Dictionary and codebook

发射者和接收者对符号化信息的假设
- 所有“可能的符号”都是预先（priori）已知的。
- 接收者只是不确定（uncertain）哪个符号将被接收。
例如，在使用英语的对话中，
- 预先知道将会说英语字典中的某个词汇。
- 在接收前无法确定哪一个。
例如，在编码的数字通信中，
- 代码簿（或简称代码）- 所有预定义符号的可能组合的集合 - 总是预先为接收者所知。
- 只是不确定哪一个将被接收。

Compactness of codes

对于
“用不同字典描述相同的信息”

或

“用不同代码簿描述相同的信息”

会有什么“影响”？

答案：不同程度的紧凑性！
某些代码簿可能会导致比其他代码簿更冗长的描述。
例如，事件概率为\(\{1/2,1/4,1/8,1/8\}\)，

\[\text{事件三}\left\{\begin{aligned} \text{事件一} & : 00 \\ \text{事件二} & : 01 \\ \text{事件三} & : 10 \\ \text{事件四} & : 11 \end{aligned} \right. \]

\[\text{事件三}2\left\{\begin{aligned} \text{事件一} & : 0 \\ \text{事件二} & : 10 \\ \text{事件三} & : 110 \\ \text{事件四} & : 111 \end{aligned} \right. \]

平均码字长度平均码字长度

\(= (1/2) {\times} 2\) 位 \(+ (1/4) {\times} 2\) 位 \(= (1/2) {\times} 1\) 位 \(+ (1/4) {\times} 2\) 位

(1/8) × 2 位 + (1/8) × 2 位 + (1/8) × 3 位 + (1/8) × 3 位

= 每事件 2 位 \(= 7/4\) 位每事件（更紧凑）

How to find the most compact code?(ESSENTIAL)

直接方法

计算所有可能的编码设计的平均码字长度，并选择平均码字长度最小的一种

如果事件的数量很大，这项工作会很繁琐。
替代方法

推导出所有可能编码中的最小平均码字长度，并构造达到此最小值的编码（推导理论极限）

是否可以在不穷尽所有可能的编码设计的情况下推导出这样的最小值？（香农回答“是的”。我们可以在不进行真正的编码设计的情况下做到这一点，仅通过测量我们将要传输的信息。）

How to measure information?

信息内容的量化定义（工程视角）

表示这一信息的最紧凑编码的平均码字长度（通常以比特为单位）

根据上述定义，工程师可以直接确定存储信息所需的最小空间，即这些信息包含多少比特。

问题：这个定义并不能引导我们找到答案，因为直接找到最紧凑的编码可能并不容易。
- 可能能够穷尽所有可能的4事件描述性编码
- 但随着事件数量的增加，工作变得繁琐且耗时。

How to measure information?（ESSENTIAL）

信息内容的量化定义（概率视角）（从最基本的性质开始探索，得到公理）

公理（Axioms）：

事件概率的单调性（∗ Monotonicity in event probability）：如果某个事件发生的可能性较低，那么当它发生时应该携带更多信息，因为该事件发生的不确定性更大。（不确定性越高，携带的信息更大）

可加性：信息测量具有“可加性”是合理的，即联合事件的不确定性程度应等于每个单独（但不相交）事件的不确定性程度之和。

连续性：事件概率的微小变化只应导致事件不确定性的小幅变动。例如，概率分别为0.20001和0.19999的两个事件应合理地具有可比的信息内容。（不是奇异的）

唯一满足这些公理的“度量”是：（然后从公理推导出公式（数学建模））

\[\text{事件的自信息} = {\log}_{2}\frac{1}{\text{事件概率}}\text{位。} \]

（此命题将在定理2.1中证明。）

因此，采用熵（entropy）——自信息的期望值——作为信息的（平均）度量是合理的。

Example of computation of entropy

例如，事件概率为\(\{1/2,1/4,1/8,1/8\}\)，

\[\text{事件三}\left\{\begin{aligned} \text{事件一} & : 00 \\ \text{事件二} & : 01 \\ \text{事件三} & : 10 \\ \text{事件四} & : 11 \end{aligned} \right. \]

\[\text{事件二}\left\{\begin{aligned} \text{事件一} & : 0 \\ \text{事件二} & : 10 \\ \text{事件三} & : 110 \\ \text{事件四} & : 111 \end{aligned} \right. \]

事件一：平均码字长度事件二：平均码字长度

\(= 2\) 位每事件 \(\quad = 7/4\) 位每事件（更紧凑）

\[\left\{\begin{array}{l} \text{事件一的自信息} = {\log}_{2}\frac{1}{1/2} = 1\text{比特} \\ \text{事件二的自信息} = {\log}_{2}\frac{1}{1/4} = 2\text{比特} \\ \text{事件三的自信息} = {\log}_{2}\frac{1}{1/8} = 3\text{比特} \\ \text{事件四的自信息} = {\log}_{2}\frac{1}{1/8} = 3\text{比特} \end{array} \right. \]

\[\text{熵} = \frac{1}{2} {\times} 1\text{比特} + \frac{1}{4} {\times} 2\text{比特} + \frac{1}{8} {\times} 3\text{比特} + \frac{1}{8} {\times} 3\text{比特} = \frac{7}{4}\text{比特每事件} \]

Lessen from the previous example

代码2在所有可能的代码设计中是最紧凑的代码，因为它具有最小的平均码字长度。

如果这个声明是真的，那么以下两个关于信息内容的定义是等价的：
- （工程视角）表示信息的最紧凑代码的平均码字长度
- （概率视角）信息的熵
1948年，香农证明了以上两种观点实际上是等价的（在某些约束下）。即，源描述代码的最小平均码长确实等于源的熵。
人们可以计算源的熵，并确保如果代码的平均码字长度等于源熵，那么该编码是最优的。

Contribution of Shannon

香农的工作为信息理论领域奠定了基础。
他的工作表明，信息理论的数学结果可以作为信息操作系统发展的指导。

Measure of compactness for a code

A few notes on the compactness of a code:(ESSENTIAL)

信息的度量是基于紧凑性定义确定的。
- 表示信息的最紧凑代码的平均码字长度
- 这里，“最紧凑的代码”=“平均码字长度最小的代码”。
- 香农显示“最小的平均码字长度”=熵。
然而，代码紧凑性的度量定义可能取决于应用场景。一些例子包括：
代码的平均码字长度（相对于事件概率）（如果应用中平均码字长度至关重要）。
代码的最大码字长度（如果应用中最大码字长度至关重要）。
代码码字长度的平均函数值（成本或罚金）（例如，较长的码字应用较大的罚金）。

\[\text{事件三}\left\{\begin{aligned} \text{事件一} & : 00 \\ \text{事件二} & : 01 \\ \text{事件三} & : 10 \\ \text{事件四} & : 11 \end{aligned} \right. \]

\[\text{事件二}\left\{\begin{aligned} \text{事件一} & : 0 \\ \text{事件二} & : 10 \\ \text{事件三} & : 110 \\ \text{事件四} & : 111 \end{aligned} \right. \]

事件一：平均码字长度事件二平均码字长度

\(= 2\) 比特每事件 \(= 7/4\) 比特每事件

事件一：最大码字长度事件二最大码字长度

= 2 比特 = 3比特

代码1在最大码字长度更短的意义上更紧凑。
代码2在平均码字长度更小的意义上更紧凑。

事件概率：\(\{1/2,1/4,1/8,1/8\}\)

\[\text{编码}1\left\{\begin{aligned} \text{事件一} & : 00 \\ \text{事件二} & : 01 \\ \text{事件三} & : 10 \\ \text{事件四} & : 11 \end{aligned} \qquad \text{编码}2\left\{\begin{aligned} \text{事件一} & : 0 \\ \text{事件二} & : 10 \\ \text{事件三} & : 110 \\ \text{事件四} & : 111 \end{aligned} \right. \right. \]

例如，最小化码字长度的平均函数值。

对于固定的 \(t > 0\) ，以最小化

\[\mathop{{\sum}}\limits_{z {\in} \text{事件空间}}\Pr(z)2^{t {\cdot} {\ell}(z)},\quad\left( \text{或等效地,}L(t) \mathrel{\text{:=}} \frac{1}{t}{\log}_{2}\mathop{{\sum}}\limits_{z {\in} \text{事件空间}}\Pr(z)2^{t {\cdot} {\ell}(z)} \right) \]

其中 \({\ell}(z)\) 代表事件 \(z\) 的码字长度。

码字长度的平均函数值为：

\[\mathop{{\sum}}\limits_{z {\in} \text{事件空间}}\Pr(z)2^{t {\cdot} {\ell}(z)} = \frac{1}{2}2^{2t} + \frac{1}{4}2^{2t} + \frac{1}{8}2^{2t} + \frac{1}{8}2^{2t} = 2^{2t} \qquad 对于编码1 \]

\[\mathop{{\sum}}\limits_{z {\in} \text{事件空间}}\Pr(z)2^{t {\cdot} {\ell}(z)} = \frac{1}{2}2^{t} + \frac{1}{4}2^{2t} + \frac{1}{8}2^{3t} + \frac{1}{8}2^{3t} = \frac{2^{t}}{4}\left( 2^{2t} + 2^{t} + 2 \right)\text{对于编码}2. \]

\[\text{-}L(t) = \frac{1}{t}{\log}_{2}\mathop{{\sum}}\limits_{z {\in} \text{事件空间}}\Pr(z)2^{t {\cdot} {\ell}(z)} = 2 \qquad 对于编码1 ; \]

\[L(t) = \frac{1}{t}{\log}_{2}\mathop{{\sum}}\limits_{z {\in} \text{事件空间}}\Pr(z)2^{t {\cdot} {\ell}(z)} = 1 + \frac{1}{t}{\log}_{2}\frac{\left( 2^{2t} + 2^{t} + 2 \right)}{4}\text{对于编码}2. \]

观察1：当 \(t > 1\) 时，编码1更紧凑；当 \(0 < t < 1\) 时，编码2更紧凑。
观察2：

\[\mathop{\lim}\limits_{t {\downarrow} 0}\frac{1}{t}{\log}_{2}\mathop{{\sum}}\limits_{z {\in} \text{事件空间}}\Pr(z)2^{t {\cdot} {\ell}(z)} = \mathop{{\sum}}\limits_{z {\in} \text{事件空间}}\Pr(z){\ell}(z) \]

\[= \text{平均码字长度。} \]

\[\mathop{\lim}\limits_{t {\uparrow} {\infty}}\frac{1}{t}{\log}_{2}\mathop{{\sum}}\limits_{z {\in} \text{事件空间}}\Pr(z)2^{t {\cdot} {\ell}(z)} = \mathop{\max}\limits_{z {\in} \text{事件空间}}{\ell}(z) \]

\[= \text{最大码字长度。} \]

Lessen from the previous extension

信息内容测量的扩展定义

（工程视角）代表信息的最紧凑编码的最小成本，即 \(L(t)\)
（概率视角）信息的Rényi熵

\[H\left( Z;\frac{1}{1 + t} \right) \mathrel{\text{:=}} \frac{1 + t}{t}{\log}_{2}\mathop{{\sum}}\limits_{z {\in} \text{事件空间}}{\left\lbrack \Pr(z) \right\rbrack}^{1/(1 + t)}. \]

1965年，Cambell证明了以上两种视角是等价的。

[CAM65] L. L. Cambell, "A coding theorem and Rényi's entropy," Infor-mat. Contr., vol. 8, pp. 423-429, 1965.

\[\mathop{\lim}\limits_{t {\downarrow} 0}H\left( Z;\frac{1}{1 + t} \right) = \mathop{{\sum}}\limits_{z {\in} \text{事件空间}}\Pr(z){\log}_{2}\frac{1}{\Pr(z)} \]

\[\mathop{\lim}\limits_{t {\uparrow} {\infty}}H\left( Z;\frac{1}{1 + t} \right) = {\log}_{2}\left( \text{事件数量} \right) \]

Data transmission over noisy channel

在噪声信道上进行数据传输的关注点与数据存储（或无误差传输）不同。
发送者希望在可接受的信息符号错误率下向接收者传输一系列预定义的信息符号。
因此，添加了编码冗余来对抗噪声。

例如，可以使用三次重复码：

\(* 1 {\rightarrow} 111\)

\(* 0 {\rightarrow} 000\)

并在接收器处应用多数规则，以便可以恢复一位错误。

三次重复码以每三个信道位传输一个信息位的速率进行传输。因此，信息传输效率（或信道编码速率）被称为每个信道使用的 \(1/3\) 二进制信息符号。

Concern on channel code design

固定一个噪声信道。在信息符号的任意小错误概率条件下，信道编码设计可达到的最大传输效率是多少？
在我们探讨这个问题之前，最好先澄清源编码器和信道编码器之间的关系。这将有助于解析任意小的信息传输错误概率的条件。
源编码器(Source coder)将信息符号（代表事件）映射到源码字（例如，\(u = f(z)\)）。
信道编码器(Channel coder)将源码字映射到信道码字（例如，\(x = g(u)\)）。
这两种编码器可以合并为一个直接从信息符号到信道码字的映射（例如，\(x = g\left( f(z) \right) = h(z)\)）。
可以预见，源-信道码的联合设计（即寻找最佳的 \(h({\cdot})\) 映射）是有益的，但难度较大。

Separate design of source and channel coders

源编码器(Source encoder)
- 寻找信息消息的最紧凑表示。
信道编码器( Channel encoder)
- 根据噪声模式，添加冗余，以便可靠地传输源代码位。

Source encoder design

对于源编码器，系统设计者希望最小化表示一个 \(Z\) 所需的 \(U\) 的数量，即：

压缩率 \(=\) 每个 \(Z\) 的 \(U\) 数量。

香农告诉我们（对于独立同分布的 \(Z\)）：

最小压缩率 \(=\) \(Z\) 的熵（或 \(Z_{1},Z_{2},Z_{3},{\ldots}\) 的熵率）

\[= \mathop{{\sum}}\limits_{z {\in} \mathcal{Z}}P_{Z}(z){\log}_{|u|}\frac{1}{P_{Z}(z)}\text{每个源符号的编码符号} \]

*熵率 = 每个 \(Z\) 符号的熵。

*对于独立同分布过程，\(Z\) 的熵 = \(Z_{1},Z_{2},Z_{3},{\ldots}\) 的熵率。

\(\mathcal{Z} = \{\) 事件一，事件二，事件三，事件四 \(\}\)。
\(\mathcal{U} = \{0,1\}\)；因此，\(\left| \mathcal{U} \right| = 2\)。
香农告诉我们（对于独立同分布的 \(Z\)）：

最小压缩率 \(=\) \(Z\) 的熵

\[= \mathop{{\sum}}\limits_{z {\in} \mathcal{Z}}P_{Z}(z){\log}_{2}\frac{1}{P_{Z}(z)}\text{每个源符号的编码位} \]

声明：如果源编码器是最优的，其输出 \({\ldots},U_{3},U_{2},U_{1}\) 是（渐进地）在 \(\mathcal{U}\) 上均匀分布的。

例如，\({\ldots},Z_{3},Z_{2},Z_{1} {\in} \{\) 事件一，事件二，事件三，事件四 \(\} = \left\{e_{1},e_{2},e_{3},e_{4} \right\}\)，其概率为 \((1/2,1/4,1/8,1/8)\)。我们已经知道

\[\text{事件二 : }\left\{\begin{aligned} \text{事件一} & : 0 \\ \text{事件二} & : 10 \\ \text{事件三} & : 110 \\ \text{事件四} & : 111 \end{aligned} \right. \]

具有最小的平均码字长度，等于源熵。（不可能进一步压缩；因此编码2完全压缩了事件信息。）

然后

\[\Pr\left\{U_{1} = 0 \right\} = \Pr\left\{Z_{1} = e_{1} \right\} = 1/2, \]

所以第一个编码位是均匀分布的。

\[\Pr\left\{U_{2} = 0 \right\} = \Pr\left( Z_{1} = e_{1} {\land} Z_{2} = e_{1} \right) + \Pr\left( Z_{1} = e_{2} \right) \]

\[= \Pr\left( Z_{1} = e_{1} \right)\Pr\left( Z_{2} = e_{1} \right) + \Pr\left( Z_{1} = e_{2} \right) = \frac{1}{2} {\times} \frac{1}{2} + \frac{1}{4} = \frac{1}{2}. \]

所以第二个编码位是均匀分布的。

\[\Pr\left\{U_{3} = 0 \right\} = \Pr\left\{Z_{1} = e_{1} {\land} Z_{2} = e_{1} {\land} Z_{3} = e_{1} \right\} + \Pr\left\{Z_{1} = e_{1} {\land} Z_{2} = e_{2} \right\} \]

\[+ \Pr\left\{Z_{1} = e_{2} {\land} Z_{2} = e_{1} \right\} + \Pr\left\{Z_{1} = e_{3} \right\} \]

\[= \frac{1}{8} + \frac{1}{8} + \frac{1}{8} + \frac{1}{8} = \frac{1}{2}\text{.} \]

所以第三个编码位是均匀分布的。

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

因此，每个\(U_{1},U_{2},U_{3},{\ldots}\)都在\(\{0,1\}\)上均匀分布。

（可以通过\(\Pr\left( U_{k} {\mid} U_{1},{\ldots},U_{k {-} 1} \right) = \Pr\left( U_{k} \right)\)证明\(U_{1},U_{2},U_{3},{\ldots}\)是独立同分布的。）

另一种解释：如果\(U {\in} \{0,1\}\)不是均匀分布的，则其熵

\[H(U) = p{\log}_{2}\frac{1}{p} + (1 {-} p){\log}_{2}\frac{1}{1 {-} p} < 1\text{ 数量比 :}\bar{U}\text{ 的数量/}U\text{ 的数量,} \]

其中\(\Pr\{U = 0\} = p\)，且\(\bar{U} {\in} \{0,1\}\)。

因此，根据香农，存在另一个源编码器，使得

\[m = kH(U) < k. \]

对编码2进行进一步压缩，这是一个矛盾！

总结：在最小化每个字母的平均码字长度（即\(U\)的数量除以\(Z\)的数量）方面，最优源编码器的输出（即\(Z_{1},Z_{2},{\ldots}\)的总熵除以\(Z\)的数量），应该是渐近地独立同分布且具有均匀的边际分布。

如果最优源码的每个字母的平均码字长度等于每个字母的源熵，其输出变为完全独立同分布，边际概率相等。

Separate design of source and channel codes

源压缩速率（Source compression rate）信道编码速率（传输效率）(Channel code rate (transmission efficiency))

=U的数量/Z的数量 = \(U\)的数量/\(X\)的数量

=源码字/源符号 = 每次信道使用的信息符号数量

设计信道编码的人可能假设设计源码的人在数据压缩方面做得很好（即，最优）。
因此他假设信道输入是均匀分布的；因此，..., \(U_{3},U_{2},U_{1}\)是完全的信息符号，没有冗余。
现在信道编码器关心的是每次信道使用的信息符号数量，要求可接受的传输错误。
由于\({\left\{U_{j} \right\}}_{j = 1}^{m}\)是均匀分布的，错误率通过以下方式计算：

\[\text{error} = \frac{1}{{\left| \mathcal{U} \right|}^{m}}\mathop{{\sum}}\limits_{\left( u_{1},u_{2},{\ldots},u_{m} \right) {\in} {\mathcal{U}}^{m}}\Pr\left\{\operatorname{error} {\mid} \left( u_{1},u_{2},{\ldots},u_{m} \right)\text{ 已传输 } \right\}, \]

这通常被称为平均错误标准。

Reliable \(=\) Arbitrarily small error probability

现在回到这个问题：

固定一个噪声信道。对于信道编码设计，可以达到的最大传输效率（即信道编码速率）是多少，前提是信息符号的错误概率可以任意小？
什么是任意小的错误概率？
- 经理：固定一个噪声信道。我们能找到一个符合信息传输错误 \(< \mathbf{0}.1\)，且信道编码速率 \(= 1/3\)（\(U\) 的数量/\(X\) 的数量）的信道编码吗？
- 工程师：是的，我能构造出这样的编码。
- 经理：对于同一个噪声信道，我们能找到一个符合信息传输错误 \(< \mathbf{0}.01\)，且信道编码速率 \(= 1/3\) 的信道编码吗？
- 工程师：是的，我可以通过修改之前的编码来达到新的标准。
- 经理：那么信息传输错误 \(< \mathbf{0}.001\)，同时保持相同的编码速率呢？
- 工程师：完全没问题。实际上，对于 \(1/3\) 的编码速率，我可以找到一个编码来满足任意小的错误需求。
香农：1/3 的编码速率是这个噪声信道的可靠传输编码速率。
- 注意，任意小不等同于精确零。换句话说，能够满足任意小错误需求的编码的存在，并不必然意味着存在零错误的编码。
信道容量的定义
- 信道容量是噪声信道的最大可靠传输编码速率。
问题

是否可以在不尽试所有可能的信道编码设计的情况下确定最大的可靠传输编码速率？
香农说：“可以。”

Mutual information

观察到一个好的信道编码基本上增加了信道输出对信道输入的确定性，尽管在传输开始前信道输入和输出都是不确定的（信道输入由传输的信息决定，信道输出是信道输入和噪声的联合结果）。
因此，设计一个好的信道编码应该更多地考虑信道输入和输出之间的统计上的“共享信息”，以便一旦观察到一个信道输出，接收者能更确定地知道哪个信道输入被传输了。

Example

信道编码速率（传输效率）Channel code rate (transmission efficiency)

= \(U\) 的数量 / \(\overrightarrow{X}\) 的数量

= 每次信道使用的信息符号数量

Channel Model

信道输入：\(\overrightarrow{X} = \left( V_{1},V_{2} \right)\) 在 \(\{(a,a),(a,b),(b,a),(b,b)\}\) 中。

信道输出：由于信道噪声，只有 \(V_{1}\) 在信道输出中存活。即，如果 \(\overrightarrow{Y} = \left( {\Lambda}_{1},{\Lambda}_{2} \right)\) 代表信道输出，则 \({\Lambda}_{1} = V_{1}\)，\({\Lambda}_{2} = b\)。

Common Uncertainty Between Channel Input and Output

输入不确定性：信道输入有两个不确定性，\(V_{1}\) 和 \(V_{2}\)，因为在传输开始前它们每个都可能是 \(a\) 和 \(b\)。

输出不确定性：信道输出只有一个不确定性，\({\Lambda}_{1}\)，因为 \({\Lambda}_{2}\) 确定性地被知道是 \(b\)。

共同不确定性 - 因此，信道输入和输出之间的“共同不确定性”（在传输开始前）是 \({\Lambda}_{1} = V_{1}\)。

Example

Channel Code

假设杰克和玛丽希望使用这个噪声信道可靠地传递一个4事件的信息。
代码设计。

\[\text{事件 1 :}{\overrightarrow{X}}_{1},{\overrightarrow{X}}_{2} = (a,d)(a,d)\text{,} \]

\[\text{事件 2 :}{\overrightarrow{X}}_{1},{\overrightarrow{X}}_{2} = (a,d)(b,d)\text{,} \]

\[\text{事件 3 :}{\overrightarrow{X}}_{1},{\overrightarrow{X}}_{2} = (b,d)(a,d)\text{,} \]

\[\text{事件 4 :}{\overrightarrow{X}}_{1},{\overrightarrow{X}}_{2} = (b,d)(b,d)\text{,} \]

其中 " \(d\) " = "不关心"。

由此产生的传输率为

\[\frac{{\log}_{2}\left( 4\text{ 事件 } \right)}{2\text{ 信道使用 }} = 1\text{ 信息位每信道使用。} \]

需要注意的是，上述传输代码只使用了不确定性 \(V_{1}\)。这仅仅是因为从信息传输的角度来看，不确定性 \(V_{2}\) 是无用的。

同时也注意到，事件是均匀分布的，因为假设数据压缩器做了最优的工作；所以源熵是 \(4 \times \left( \frac{1}{4}{\log}_{2}\frac{1}{(1/4)} \right) = 2\) 比特。

从上述示例中，我们可以得出结论，一个好的传输代码的设计应该与信道输入和输出之间的“共同不确定性”（或更正式地，互信息）相关。
然后自然会想知道这种“关系”是否可以用数学方式表达。
实际上，香农确定了可靠传输速率（每信道使用的信息位）的上限是可获得的最大信道互信息（即，传输开始前的“共同不确定性”）。
通过他的巧妙工作，工程和概率视角再次相符。

关键笔记

信息度量
基于代码设计的工程立场与基于信息统计的数学立场之间的等价。
然后获得了一个好的数据压缩代码的解释。
信道容量
等价关系：
- 基于代码设计的工程立场 = 在均匀分布的信息输入下的最大可靠代码速率
- 基于信道统计的数学立场 = 信道输入和输出之间的最大互信息
然后获得了一个好的信道代码或纠错代码的解释。
这些等价关系构成了信息论的基础，从而可以使用可计算的、统计定义的表达式，如熵和互信息，来确定实际系统的最优性。

参考内容：

1,PPM

在脉冲位置调制（PPM）中，信息是通过调整脉冲在时间轴上的位置来编码的。这里解释一下这个过程：

基本概念：
- 在PPM中，传输的基本单元是脉冲，而这些脉冲的特点是它们不会在固定的时间点发生。相反，每个脉冲发生的具体时间点是变化的，这种变化用来携带信号信息。
时间偏移：
- 对于每个脉冲，其位置（即时间点）会根据模拟信号的信息进行调整。具体来说，每个脉冲的发生时间相对于一个预设的参考时间（或参考脉冲）有一个特定的偏移。这个偏移是根据模拟信号在那一时刻的强度或值来确定的。
信号编码：
- 例如，如果模拟信号在某一时刻的值较高，脉冲可能会被设置在距离参考时间稍迟的位置；如果信号值较低，脉冲则可能出现在更早的时间。通过这种方式，脉冲的位置变化就直接反映了模拟信号的变化。
信息解码：
- 在接收端，通过测量脉冲与参考时间的实际偏移，可以恢复出原始的模拟信号信息。这要求接收系统有能力准确测量时间差，因为任何时间测量的误差都可能导致信息的错误解码。

总之，PPM通过利用脉冲的时间位置（而非脉冲的频率或幅度）来传递信息，使得它在某些特定的应用场景中，如光纤通信等高噪声环境下，表现出优越的抗干扰性。

2PCM

脉码调制（PCM）：

PCM是一种将模拟信号转换为数字信号的方法，通过对模拟信号进行采样、量化和编码来实现。在PCM中，模拟信号在特定的时间间隔内被采样，每个样本被量化到最近的值，并编码为数字比特。
提高信噪比的方法之一是增加量化级别的数目，这样可以减少量化噪声，从而提高信噪比。但这通常意味着需要更多的比特来描述每个样本，从而增加了所需的带宽

3.信道容量

信道容量（Channel Capacity）。香农在1948年的论文《A Mathematical Theory of Communication》中首次提出了这个概念，它是信息论的基石之一。下面我来详细解释这句话的含义：

信道容量：
- 信道容量( C )是一个信道可以传输信息的最大速率，单位通常是比特每秒（bps）。这个速率不仅取决于信道的物理特性，如带宽和信号功率，还取决于信道的统计特性，如噪声水平。
传输率：
- 传输率( R )指的是数据传输的速率，同样是以比特每秒为单位。这是我们希望通过信道发送数据的速率。
错误概率可以任意小：
- 如果传输率( R )低于信道容量( C )，那么就可以设计一种编码和调制方案，使得在信道传输过程中出现错误的概率非常小，甚至可以接近于零。这意味着可以几乎无误差地传输信息。
依赖于信道的统计特性：
- 信道的统计特性，包括噪声的性质和分布，对于确定信道容量至关重要。例如，在一个有高噪声的信道中，信道容量会比在低噪声信道中要小，因为噪声会干扰传输的信号，减少可靠传输信息的速率。

简而言之，这句话表明在任何给定的通信信道中，都存在一个最大的数据传输率（即信道容量），在这个速率以下可以设计出几乎无误差的通信系统。超过这个速率，错误率会显著增加，不能保证有效的通信。信道容量的概念帮助我们理解和设计更有效的通信系统，以适应不同的信道条件和需求。

4、独立同分布的目的

在信息论和统计学中，当一组随机变量中的每个变量都具有相同的概率分布，并且任意变量的取值不依赖于其他变量的取值时，这组变量被称为独立同分布（Independent and Identically Distributed, 简称 i.i.d.）。在源编码的上下文中，如果输出序列中的每一个符号（\(U\)）都是独立同分布的，那么这表示每个符号都独立于其他符号地反映了源数据，并且每个符号都遵循相同的概率分布。

在上述讨论中，\(U_{1}, U_{2}, U_{3}, \ldots\) 被提及为独立同分布主要基于以下两个方面的考虑：

均匀分布：均匀分布意味着所有可能的结果（在这里是0和1）都有相同的概率发生。在给定的示例中，每个编码位\(U_k\)取值为0或1的概率都是\(1/2\)，这是均匀分布的典型特征。
独立性：独立性指的是一个事件的发生不依赖于其他事件。在计算每个\(U_k\)的概率时，我们没有需要依赖前面的\(U\)值，每个\(U_k\)的计算仅基于其对应的\(Z\)事件的概率。这意味着每个编码位\(U_k\)的生成只依赖于当前的事件\(Z_k\)，而与其他\(U\)的值无关。

为什么要这样计算的理由是：

最小化冗余：通过确保每个编码位\(U_k\)均匀分布且独立，我们可以最大化信息的压缩，减少冗余。均匀分布的独立变量不携带关于彼此的额外信息，因此每个符号都以最高效的方式使用其概率空间。
简化分析和设计：在理论和实际应用中，独立同分布的假设允许简化信息源和信道的分析与设计。这种简化使得可以更直接地计算如熵和错误率等关键参数。

总之，\(U_{1}, U_{2}, U_{3}, \ldots\) 的独立同分布性是为了确保编码过程的每个步骤都能有效利用概率资源，同时简化编码和解码过程的复杂性。

posted @ 2024-05-06 17:32 lycheezhang 阅读(17) 评论(0) 收藏举报

刷新页面返回顶部

lycheezhang

Overview : The philosophy behind information theory

Overview : The philosophy behind information theory

A Mathematical Theory of Communication

1.1: Overview

Chapter 1

Introduction (Not in text)(ESSENTIAL)

Representation of information

Dictionary and codebook

Compactness of codes

How to find the most compact code?(ESSENTIAL)

How to measure information?

How to measure information?（ESSENTIAL）

Example of computation of entropy

Lessen from the previous example

Contribution of Shannon

Measure of compactness for a code

A few notes on the compactness of a code:(ESSENTIAL)

Lessen from the previous extension

Data transmission over noisy channel

Concern on channel code design

Separate design of source and channel coders

Source encoder design

Separate design of source and channel codes

Reliable \(=\) Arbitrarily small error probability

Mutual information

Example

Channel Model

Common Uncertainty Between Channel Input and Output

Example

Channel Code

关键笔记

参考内容：

1,PPM

2PCM

3.信道容量

4、独立同分布的目的

公告