《计算机与人工智能应用数学》学习笔记

作业 50%，期中期末各 25%。

Lecture 1: Probability Theory Basics

概率空间 probablity space

随着概率问题变得越来越复杂，我们需要概率的精确的数学定义。

离散情况下，概率空间 $P = (U, p)$ 由以下组成：

样本空间 universe $U$ 是非空有限集。
概率函数 probability function $p : U \to [0, 1]$ 且 $\sum_{x \in U} p (x) = 1$ 。

$P$ 的一个事件 event $T$ 是 $U$ 的子集， $T$ 的概率 $Pr (T) = \sum_{x \in T} p (x)$ 。

三门问题 Monte Hall problem

一个经典问题。

一个门后有大奖，选定一个门之后会得知一个不是当前门的没有大奖的门。

如果不切换，那么概率是一开始选中的概率 $\frac{1}{3}$ 。

如果在剩下两个门随机选，那么概率是 $\frac{1}{2}$ 。

如果切换，那么概率是一开始没选中的概率 $\frac{2}{3}$ 。

在描述概率空间时需要小心：直觉有可能导致错误的结果！

基本计数规则 basic counting rule

生日悖论 birthday paradox

$U = {(x_{1}, \dots, x_{n}) ∣ 1 \leq x_{i} \leq 365}$ ， $T = {(x_{1}, \dots, x_{n}) ∣ \exists j \neq k, x_{j} = x_{k}}$ 。

$q (n) = 1 - \prod_{i = 0}^{n - 1} (1 - \frac{i}{365}) .$
根据经典不等式 $e^{- x} \geq 1 - x, \forall x \geq 0$ 可知

$q (n) \geq 1 - \exp (- \frac{n (n - 1)}{2 \times 365}) \equiv d (n) .$
$d (n)$ 是对 $q (n)$ 的良好近似。给定概率 $0.5$ ，计算 $q (n) = 0.5$ 的 $n$ 可以用 $d (n) = 0.5$ 近似。

$\begin{aligned} \exp (- \frac{n (n - 1)}{2 \times 365}) & = 0.5, \\ \frac{n (n - 1)}{2 \times 365} & = \ln 2 = 0.69, \\ x & = \sqrt{2 \times 365 \times 0.69} = 22.44 . \end{aligned}$

基本计数规则 basic counting rules：对于均匀的概率函数， $Pr (T) = | T | / | U |$ 。计算 $Pr (T)$ 等价于计算 $T$ 的大小。

加法原理 addition rule：如果 $S$ 是 $S_{1 \sim k}$ 的无交并，则 $| S | = \sum_{i = 1}^{k} | S_{i} |$ 。
乘法原理 multiplication rule：如果 $S$ 的每个元素可以和 $s = (i_{1}, \dots, i_{m})$ 一一对应，其中 $1 \leq i_{k} \leq c_{k}$ ，则 $| S | = \prod c_{1 \sim m}$ 。

37% 法则 the 37% rule

$x$ 是均匀随机的 $1 \sim n$ 的排列。在不知道之后的数的情况下依次决定每个数是否选择，最多选一个数，希望选中 $n$ 。

策略 $k$ ：跳过前 $k$ 个数，选择第一个 $x_{j}$ 使得 $x_{j} > max x_{1 \sim k}$ 。分析其概率：

（加法原理）设 $T$ 是使得策略成功的排列， $T_{j}$ 为 $T$ 中使得 $x_{j} = n$ 的排列，则 $T$ 是 $T_{k < j \leq n}$ 的无交并。

（乘法原理）使得 $x_{j} = n$ 的排列有 $(n - 1)!$ 个，落在 $T$ 中要求 $max x_{1 \sim j - 1} = max x_{1 \sim k}$ ，概率是 $\frac{k}{j - 1}$ 。

综上，

$Pr (T) = \sum_{j = k}^{n - 1} \frac{k (n - 1)!}{(j - 1) n!} = \frac{k}{n} (H_{n - 1} - H_{k - 1}) \approx - \frac{k}{n} \ln \frac{k}{n} .$
求导可知在 $\frac{k}{n} = \frac{1}{e}$ 时最优，最优值为 $\frac{1}{e} = 0.37$ 。

基本概率工具 essential probability tool

#1 布尔不等式 Bool's inequality, union bound：对有限多个事件 $T, T_{1}, \dots, T_{m}$ ，若 $T \subseteq ⋃_{i = 1}^{m} T_{i}$ ，则 $Pr (T) \leq \sum_{i = 1}^{m} Pr (T_{i})$ 。若 $T_{i}$ 两两无交且 $T$ 是 $T_{i}$ 的无交并，则不等式取等。

这些很简单的不等式可以给出很惊人的结论。

拉姆齐数 Ramsey number：点数不小于 $R (r, s)$ 的图一定存在 $r$ 个点的团或 $s$ 个点的独立集。 $R (k) = R (k, k)$ 。

Ramsey 定理：对任意 $k \geq 3$ ，存在 $N$ 使得对任意 $N$ 个点的图，图上有大小为 $k$ 的完全图或独立集。 $R (3) = 6$ 。

作业：证明 $R (k) \leq (\binom{2 k - 2}{k - 1}) < 4^{k}$ 。具体是先证明 $R (r, s) \leq R (r - 1, s) + R (r, s - 1)$ 然后归纳。

Theorem

$R (k) \geq ⌊ 2^{k / 2} ⌋ .$
Paul Erdos 1947.

Proof

设 $n \leq 2^{k / 2}$ 。

对于大小为 $k (k \geq 3)$ 的点集 $V$ ，在随机图上 $V$ 形成完全图的概率为 $2^{- k (k - 1) / 2}$ 。根据布尔不等式，至少存在一个完全图或独立集的概率不超过

$(\binom{n}{k}) \times 2 \times 2^{- k (k - 1) / 2} \leq 2 \frac{n^{k}}{k! 2^{k (k - 1) / 2}} \leq 2 \frac{2^{k^{2} / 2}}{k! 2^{k (k - 1) / 2}} = \frac{2^{k / 2 + 1}}{k!} < 1.$
$◻$

概率方法 probabilistic method：通过概率分析而非显式构造来证明一个数学对象的存在性。由 Paul Erdos 创立。

#2a 条件概率 conditional probability：给定 $T$ 之后 $S$ 发生的概率称为 $S$ 关于 $T$ 的条件概率。

Pr (S ∣ T) = {\begin{cases} Pr (S \cap T) / Pr (T), & Pr (T) \neq 0; \\ 0, & Pr (T) = 0. \end{cases}

在逻辑上， $Pr (S \cap T)$ 和 $Pr (S \cup T)$ 经常写为 $Pr (S \land T)$ 和 $Pr (S \lor T)$ 。

#2b 链式法则 chain rule：

Pr (S \cap T) = Pr (T) Pr (S ∣ T) .

Pr (S_{1} \cap \dots \cap S_{m}) = \prod_{1 \leq j \leq m} Pr (S_{j} ∣ S_{1} \cap \dots \cap S_{j - 1}) .

将链式法则应用在生日悖论上：设 $S_{j}$ 是所有 $x_{j} \notin x_{1 \sim j - 1}$ 的 $x$ 的集合。

分配律 distributive law：设 $T \subseteq W_{1} \cup \dots \cup W_{m}$ ，那么

Pr (T) \leq \sum_{1 \leq j \leq m} Pr (W_{j}) Pr (T ∣ W_{j}) .

若 $W_{j}$ 两两无交，则不等式取等。注意这里不要求 $T$ 是它们的无交并。这是加法原理和乘法原理的推广。

Lecture 2: Statistics on a Probability Space

条件概率（续）conditional probability continued

两个事件 $S, T$ 相互独立 independent，若 $Pr (S ∣ T) = Pr (S)$ 。即 $Pr (S \cap T) = Pr (S) Pr (T)$ 。也就是说， $S, T$ 之间，一个事件发生不会影响另一个事件发生的概率。

当 $S_{n} \subseteq S_{n - 1} \subseteq \dots \subseteq S_{1}$ 时，

Pr (S_{n}) = Pr (S_{1}) \prod_{i = 2}^{n} Pr (S_{i} ∣ S_{i - 1}) .

排列的环长 cycle length in a permutation

设 $L_{i} (σ)$ 表示 $σ$ 的包含 $i$ 的环长。注意到

$Pr (L_{1} > s ∣ L_{1} > s - 1) = \frac{n - s}{n - s + 1} .$
而 $Pr (L_{1} > 0) = 1$ 。由链式法则，对任意 $1 \leq s \leq n$ ，

$Pr (L_{1} = s) = \frac{1}{n} .$

团的贪心算法 greedy clique algorithm

贪心地检查每个点能否和当前的团形成团。

设 $A (G)$ 是最终得到的团，则对于随机图，

$Pr (| A (G) - \log_{2} n | \leq \log_{2} \log_{2} n) = 1 - o (1) .$
上界

在集合已经有 $c$ 个元素时，新加入一个点的概率为 $\frac{1}{2^{c}}$ 。

设 $K = \log_{2} n + \log_{2} \log_{2} n$ ，设 $T_{i}$ 表示第 $K$ 个加入的点是 $i$ 的事件，由分配律，

$Pr (| A (G) | > K) = \sum_{i = 2}^{n} Pr (T_{i}) Pr (| A (G) | > K ∣ T_{i}) .$
考虑到

$Pr (| A (G) | > K ∣ T_{i}) \leq \frac{n - i}{2^{K}} \leq \frac{n}{2^{K}} = \frac{1}{\log_{2} n},$
于是

$Pr (| A (G) | > K) \leq \frac{1}{\log_{2} n} \sum_{i = 2}^{n} Pr (T_{i}) \leq \frac{1}{\log_{2} n} = o (1) .$
上界的 $\log_{2} n + f (n)$ 中， $f (n)$ 可以是增长任意缓慢的函数，只要 $f (n) \to + \infty$ 。

下界见本章最后。

N 门问题 n doors problem

每个人只允许打开 $\frac{n}{2}$ 扇门。

一个人的成功概率是 $\frac{1}{2}$ ，但是两个人都成功的概率可以大于 $\frac{1}{4}$ 。策略：两个人事先约定门的排列 $σ$ ，每个人从自己对应的门开始找。成功的概率是两个人的宠物所在环长均不超过 $\frac{1}{2}$ 的概率，是 $\frac{3}{8}$ 。

所有人都成功的概率等于没有环长超过 $\frac{1}{2}$ 的概率，使用组合数学得到 $1 - (H_{n} - H_{n / 2}) = 1 - \ln 2 \approx 31 %$ 。

随机变量 random variable

一个 随机变量 是一个函数 $X : U \to R$ 。它的期望 expectation $E [X] = \sum_{u \in U} p (u) X (u)$ 。

定义期望的和 $Z = a X + b Y$ 为 $Z (u) = a X (u) + b Y (u)$ 。

#3 期望的线性性 law of linear expectation：若 $X = \sum_{i = 1}^{n} C_{i} X_{i}$ ，则

E [X] = \sum_{i = 1}^{n} C_{i} E [X_{i}] .

环的个数的期望 expected number of cycles

设 $X$ 表示环的数量，则 $X = \sum_{i = 1}^{n} \frac{1}{L_{i} (σ)}$ 。由期望的线性性，

$E [X] = n E [\frac{1}{L_{i}}] = n \sum_{i = 1}^{n} \frac{1}{n} \cdot \frac{1}{i} = H_{n} .$

条件期望 conditional expectation：

E [X ∣ T] = \frac{\sum_{u \in T} p (u) X (u)}{Pr (T)} .

#4 期望的分配律 distributive law for expectation：设 $U$ 是 $W_{1}, \dots, W_{n}$ 的无交并，则

E [X] = \sum_{i = 1}^{n} Pr (W_{i}) E [X ∣ W_{i}] .

几何分布的期望 mean of the geometric distribution

抛掷一枚正面概率为 $p$ 的硬币，设 $X$ 是第一次抛出正面的次数。

$E [X] = p + (1 - p) (1 + E [X]) ⟹ E [X] = \frac{1}{p} .$

随机变量 $X$ 的方差 variance：

Var (X) = E [(X - E [X])^{2}] = E [X^{2}] - E [X]^{2} .

标准差 standard deviation：

σ (X) = \sqrt{Var (X)} .

因此方差通常也写作 $σ^{2}$ 。

几何分布的方差 variance of the geometric distribution

$E [X^{2}] = p + (1 - p) E [(1 + X)^{2}] ⟹ σ^{2} (X) = \frac{1 - p}{p^{2}} .$

称 $X, Y$ 是 独立随机变量 independent random variable，若

Pr (X = x \cap Y = y) = Pr (X = x) Pr (Y = y) .

此时

\begin{aligned} E [X Y] & = E [X] E [Y], \\ σ^{2} (X + Y) & = σ^{2} (X) + σ^{2} (Y) . \end{aligned}

方差衡量了随机变量的分散程度。

尾部估计 tail estimate

概率工具其五。

马尔可夫不等式 Markov's inequality：

设 $X$ 是非负随机变量。对任意 $c > 0$ ，

Pr (X > c E [X]) < \frac{1}{c} .

Proof

$E [X] > Pr (X > c E [X]) \cdot c E [X]$
$◻$

另一种形式为

Pr (X > c) < \frac{E [X]}{c} .

切比雪夫不等式 Chebyshev's inequality：

Pr (| X - E [X] | > c σ (X)) < \frac{1}{c^{2}} .

Proof

对 $| X - E [X] |$ 使用 Markov 不等式，得到

$Pr (| X - E [X] | > c σ (X)) = Pr ((X - E [X])^{2} > c^{2} σ^{2} (X)) < \frac{1}{c^{2}} .$
$◻$

界不是很紧，但适用范围非常广泛。

团的贪心算法的下界 lower bound of the greedy clique problem

设 $X_{j}$ 表示第 $j$ 个加入的结点编号， $Y_{j} = X_{j + 1} - X_{j}$ 。

Observation

$Y_{j}$ 是概率为 $b_{j} = \frac{1}{2^{j}}$ 的几何分布。

$E [Y_{j}] = 2^{j}, σ^{2} (Y_{j}) = \frac{1 - b_{j}}{b_{j}^{2}} = 4^{j} - 2^{j} .$

设 $K = \log_{2} n - \log_{2} \log_{2} n$ ，那么问题等价于

$Pr ((X^{'} \equiv \sum_{j = 1}^{K} Y_{j}) \leq n - 1) = 1 - o (1) .$
根据期望的线性性，

$E [X^{'}] = \sum_{j = 1}^{K} 2^{j} = 2^{1 + K} - 2 \leq \frac{2 n}{\log_{2} n} .$
因为 $Y$ 是独立随机变量，所以

$σ^{2} (E^{'}) = \sum_{j = 1}^{K} (4^{j} - 2^{j}) = \frac{4}{3} (4^{K} - 1) - 2 (2^{K} - 1) \leq 2 {(\frac{n}{\log_{2} n})}^{2} .$
若 $X^{'} > n - 1$ ，那么 $X^{'} - E [X^{'}] > \frac{n}{2}$ 。于是

$Pr (X^{'} \geq n - 1) \leq Pr (X^{'} - E [X^{'}] > \frac{n}{2}) .$
由 Chebyshev 不等式，

$Pr (X^{'} - E [X^{'}] > \frac{n}{2}) \leq \frac{4 σ^{2} (X^{'})}{n^{2}} \leq \frac{8}{(\log_{2} n)^{2}} .$
$◻$

Lecture 3: Tail bounds continued

切比雪夫不等式 Chebyshev's inequality

使用 Chebyshev 不等式时，需要计算 $E [X]$ 和 $σ (X) = E [X^{2}] - E [X]^{2}$ 。 $E [X^{k}]$ 称为 k 阶矩 the k-th moment。

随机图的最大团（下界） largest clique of a random graph (lower bound)

设 $m = (2 - ε) \log_{2} n$ ， $M$ 是所有大小为 $m$ 的子集。

对每个 $V \in M$ 设随机变量 $A$ ， $A_{V} (G) = 1$ 当且仅当 $V$ 是团。考虑 $X = \sum_{V \in M} A_{V} (G)$ ， $T$ 表示 $w (G) \geq m$ ，则 $Pr (T) = Pr (X > 0)$ 。

考虑以下两个命题：

当 $n \to + \infty$ 时， $E [X] \to \infty$ 。

$σ^{2} (X) = E [X]^{2} \cdot o (1)$ 。

若命题成立，则根据 Chebyshev 不等式，

$Pr (X \leq 0) \leq Pr (| X - E [X] | > \frac{1}{2} E [X]) \leq \frac{σ^{2} (X)}{\frac{1}{4} E [X]^{2}} = o (1) .$
Proof (2)

对 $| V \cap V^{'} | = 1$ ， $A_{V}$ 和 $A_{V^{'}}$ 是独立的。于是

$\begin{aligned} σ^{2} (X) & \leq E [\sum_{V, V^{'}} A_{V} A_{V^{'}}] - \sum_{| V \cap V^{'} | \leq 1} E [A_{V}] E [A_{V^{'}}] \\ = E [\sum_{V} A_{V} + \sum_{| V \cap V^{'} | > 1} A_{V} A_{V^{'}}] \\ \leq E [X] + \sum_{2 \leq k \leq m} \sum_{| V \cap V^{'} | = k} E [A_{V} A_{V^{'}}] \\ = E [X] + \sum_{2 \leq k \leq m} \sum_{| V \cap V^{'} | = k} Pr (A_{V^{'}} = 1 ∣ A_{V} = 1) Pr (A_{V} = 1) \\ = E [X] + \sum_{2 \leq k \leq m} \sum_{V} Pr (A_{V} = 1) \frac{(\binom{n}{k}) (\binom{n - m}{m - k})}{2^{(\binom{m}{2}) - (\binom{k}{2})}} \\ = E [X] + E [X] \sum_{2 \leq k \leq m} \frac{(\binom{n}{k}) (\binom{n - m}{m - k})}{2^{(\binom{m}{2}) - (\binom{k}{2})}} \\ \leq E [X] + \frac{64 m^{5}}{n} E [X]^{2} . \end{aligned}$
其中最后一步用到引理（作业）

$\sum_{2 \leq k \leq m} \frac{(\binom{n}{k}) (\binom{n - m}{m - k})}{2^{(\binom{m}{2}) - (\binom{k}{2})}} \leq \frac{m^{5}}{n - m + 1} E [X] .$
而 $m \leq 2 \log_{2} n$ ，所以 (2) 成立。 $◻$

概率估计的几何解释

设随机变量 $X = \sum_{i = 1}^{n} X_{i}$ ，其中 $X_{i}$ 分别有 $\frac{1}{2}$ 的概率等于 $0$ 和 $1$ 。

计算得 $E [X] = \frac{n}{2}$ ， $σ (x) = \sqrt{\sum σ^{2} (X_{i})} = \frac{\sqrt{n}}{2}$ 。使用 Chebyshev 不等式，

Pr (| X - μ | \geq 10 \cdot σ) \leq \frac{1}{100} .

如果使用 Markov 不等式，则会得到很差的结果，因为标准差和均值不在同一个数量级。

考虑 $f (x) = 1 (x \geq a)$ ，则 $Pr (X \geq a) = E [f (x)]$ 。考虑 $g (x) \geq f (x)$ ，则

Pr (X \geq a) = E [f (x)] \leq E [g (x)] .

如果 $g (x)$ 是一个方便计算期望的函数，那么我们就得到了 $Pr (X \geq a)$ 的一个估计。

当 $g (x) = \frac{x}{a}$ 时，得到 Markov 不等式：

Pr (X \geq a) \leq E [g (x)] = \frac{E [x]}{a} .

当 $g (x) = \frac{(x - μ)^{2}}{(μ - a)^{2}}$ 时，得到 Chebyshev 不等式：

Pr (X \geq μ + c σ) \leq E [g (x)] = \frac{E [(x - μ)^{2}]}{(μ - (μ + c σ))^{2}} = \frac{σ^{2}}{c^{2} σ^{2}} = \frac{1}{c^{2}} .

现在我们考虑更激进的估计方法：指数函数。

切诺夫界 Chernoff bound

因为 $f (x)$ 在 $x \geq a$ 时等于 $1$ ，所以指数上 $x$ 的系数必须是正数。考虑到 $g (a) = 1$ 的条件， $g (x) = e^{t (x - a)}$ ，其中 $t$ 是待定系数。另一种解释是使用 Markov 不等式

Pr (X \geq a) = Pr (e^{X} \geq e^{a}) \leq \frac{E [e^{t X}]}{e^{t a}} .

$t = 0$ 时得到 $Pr (X \geq a) \leq 1$ ，没有用。 $t \to + \infty$ 时， $x \geq a$ 的部分又会增长太快导致估计得不好。我们要找到最好的 $t$ 使得 $E [g (x)]$ 最小。

切诺夫界 Chernoff bound：设随机变量 $X = \sum_{i = 1}^{n} X_{i}$ ，其中 $Pr (X_{i} = 1) = b_{i}$ ， $Pr (X_{i} = 0) = 1 - b_{i}$ ，则

\begin{aligned} Pr (X \geq (1 + δ) μ) \leq \exp (- \frac{δ^{2}}{2 + δ} μ), δ > 0. \\ Pr (X \leq (1 - δ) μ) \leq \exp (- \frac{δ^{2}}{2} μ), 0 < δ < 1. \end{aligned}

Proof

设 $a = (1 + δ) μ$ 。

由 Markov 不等式，

$Pr (X > (1 + δ) μ) \leq \frac{E [e^{t X}]}{e^{t (1 + δ) μ}} .$
根据经典不等式 $1 + x \leq e^{x}$ ，

$\begin{aligned} E [e^{t X}] & = \prod e^{t X_{i}} \\ = \prod (1 - b_{i} + b_{i} e^{t}) \\ \leq \prod \exp (b_{i} (e^{t} - 1)) \\ = \exp ((e^{t} - 1) \sum b_{i}) \\ = \exp ((e^{t} - 1) μ) . \end{aligned}$
最小化 $(e^{t} - 1) μ - t (1 + δ) μ$ ，得到 $t_{0} = \ln (1 + δ)$ ，所以

$Pr (X > (1 + δ) μ) \leq {(\frac{e^{δ}}{(1 + δ)^{(1 + δ)}})}^{μ} .$
根据 $\ln (1 + x) \geq \frac{2 x}{2 + x}$ 得到

$δ - \ln (1 + δ) (1 + δ) \leq - \frac{δ^{2}}{2 + δ} .$
于是

$Pr (X > (1 + δ) μ) \leq \exp (- \frac{δ^{2}}{2 + δ} μ) .$
类似可以证明

$Pr (X < (1 - δ) μ) \leq {(\frac{e^{- δ}}{(1 - δ)^{(1 - δ)}})}^{μ} \leq \exp (- \frac{δ^{2}}{2} μ) .$
$◻$

取 $δ = 10 \sqrt{\frac{1}{n}}$ ，则当 $n \to + \infty$ 时，

Pr (X > μ + 10 σ) = Pr (X > (1 + δ) μ) \leq \exp (- \frac{δ^{2} n}{5}) \leq e^{- 20} .

Corollary 1

Corollary 2

当 $c > 7 E [X]$ 时，

$Pr (X > c) < 2^{- c} .$

Chernoff 界的平均值形式：对于 $\overset{―}{X} = \frac{1}{n} X$ ， $μ^{'} = \frac{μ}{n}$ ，有

Pr (| \overset{―}{X} - μ^{'} | \geq ε) = Pr (| X - μ | \geq n ε) \leq 2 \exp (- \frac{(\frac{n ε}{μ})^{2} μ}{2 + \frac{n ε}{μ}}) \leq 2 \exp (- \frac{n ε^{2}}{2 + ε}) .

其中最后一个不等号成立是因为 $μ \leq n$ 。常数 $2$ 是对两侧分别使用 Chernoff 界得到的。

霍夫丁不等式 Hoeffding's inequality：设 $X_{i} \in [a, b]$ 是有界随机变量，则对任意 $t \geq 0$ ，

Pr (\overset{―}{X} - E [\overset{―}{X}] \geq t) \leq \exp (- \frac{2 n t^{2}}{(b - a)^{2}}) .

还讲了一个关于鞅的 Azuma 不等式。

LAZYTAG

Lecture 4: Advanced Applications

熵 extropy

信息熵 是定量化地描述随机性的工具。随机变量 $X$ 的熵定义为

H (X) = - \sum_{x} Pr (X = x) \log_{2} Pr (X = x) .

当 $X$ 是二元随机变量时，设 $p = Pr (X = 1)$ ，则

H (X) = H (p) = - p \log_{2} p - (1 - p) \log_{2} (1 - p)

接下来主要研究二元随机变量。

熵和二项系数 entropy and binomial coefficients

设 $n q$ 是整数。

$\frac{2^{n H (q)}}{n + 1} \leq (\binom{n}{n q}) \leq 2^{n H (q)}$
Proof

对于上界，直接二项展开。

$(\binom{n}{n q}) \leq q^{- q n} (1 - q)^{- (1 - q) n} = 2^{- q n \log_{2} q - (1 - q) n \log_{2} (1 - q)} = 2^{n H (q)}$
对于下界，考虑相邻两个二项系数的差，则

$(\binom{n}{k}) q^{k} (1 - q)^{n - k} - (\binom{n}{k + 1}) q^{k + 1} (1 - q)^{n - k - 1} = (\binom{n}{k}) q^{k} (1 - q)^{n - k} (1 - \frac{q}{1 - q} \frac{n - k}{k + 1})$
可知当 $k \leq n q - 1 + q$ 时差非负，所以当 $k = n q$ 时取到最大值，其大于平均值 $\frac{1}{n + 1}$ ，再使用类似上界的方法即可。 $◻$

熵衡量了多少 unbiased，独立的 bits 可以从随机变量中取出。

extraction function

E x t : X \to {0, 1}^{*}, Pr (E x t (X) = y ∣ | y | = k) = \frac{1}{2^{k}}, \forall Pr (| y | = k) > 0.

Theorem

如果想保证均匀随机但如果映射到太长的序列，会导致总概率大于 1

Compression

将一个随机变量的结果压缩到更短的长度上，使得期望长度小于随机变量结果的长度，但不能有一个压缩是另一个压缩的前缀。Huffman tree

C o m : {0, 1}^{*} \to {0, 1}^{*}

对于 $p > 1 / 2$ ，对任意 $δ > 0$ ，当 $n$ 足够大时，存在 $C o m$ 使得期望长度不超过 $(1 + δ) n H (p)$ ，且对任意 $C o m$ 都有期望长度至少 $(1 - δ) n H (p)$ 。

Shannon’s Theorem

the problem of reliable communication over a noisy channel.

有 $p$ 的概率翻转。添加冗余。

(k, n) E n c : {0, 1}^{k} \to {0, 1}^{n}, D e c : {0, 1}^{n} \to {0, 1}^{k}

给定 $n$ ，找到最大的 $k$ 使得成功概率不小于 $1 - ε$ 。

香农定理： $k = n (1 - H (p))$ 。

对任意 $δ, ε > 0$ ，当 $n$ 足够大时，对任意 $k \leq n (1 - H (p) - δ)$ ，存在 $(k, n)$ 编码解码使得错误率不超过 $ε$ 。

对任意 $k \geq n (1 - H (p) + δ)$ ，不存在 $(k, n)$ 解码编码使得错误率不超过 $ε$ 。

最简单的编码方式：对每个 $2^{k}$ 都有若干 Enc，考虑 Hamming distance。

设 ${\tilde{c}}_{i} = c_{i} \oplus z$ ，则 $z$ 分布在 $n p$ 个 $1$ 附近。

有 $1 - ε / 2$ 的概率，

$(p - γ) n \leq d_{H} (c_{i}, {\tilde{c}}_{i}) \leq (p + γ) n$
$R i n g (c_{i}) = {c : | d_{H} (c_{i}, c) - n p | \leq γ n}$
那么有 $1 - ε / 2$ 的概率 ${\tilde{c}}_{i} \in R (c_{i})$ .

设 $S u c_{i} (C)$ 表示 ${\tilde{c}}_{i} \in R (c_{i})$ 且对任意 $j \neq i$ ， ${\tilde{c}}_{i} \notin R (c_{j})$ 。

我们希望 $P (S u c_{i} (C))$ 对每个 $i$ 都很大。

Lemma

$R (c_{i})$ 的大小不超过 $2^{(H (p) + δ^{'}) n}$ ，其中当 $n \to + \infty$ 时 $δ^{'} \to 0$ 。

作业，气笑了。

均匀随机选 $c_{1} \sim c_{M}$ ，考虑不成功的概率，使用 union bound

${\exists i, {\tilde{c}}_{i} \notin R (c_{i}) \lor \exists i \neq j, {\tilde{c}}_{i} \in R (c_{j})}$
$Pr ({\tilde{c}}_{i} \in R (c_{j})) = \frac{V o l (R)}{2^{n}} = 2^{(H (p) + δ^{'} - 1) n}$
$Pr (F a i l) \leq M^{2} Pr () = 2^{2 k + (H (p) - 1 + δ^{'}) n} \to + \infty$
小技巧：

第一步：先选 $2 M$ 个，平均下来是好的。

第二步：丢掉最差的那一半。

不要对所有 pair 都用 union bound，设 $λ_{i} (C) = 1 - P (S u c_{i} (C))$ 。

Lemma

$E [λ_{i} (C)] \leq ε$
这里的期望对所有 $i$ 和 $C$ 。

那么一定有一个 $C$ 是好于平均的，即

$\frac{1}{M} \sum_{i = 1}^{M} λ_{i} (C^{*}) \leq ε$
于是让 $C^{*}$ 只保留最好的那部分，即 $λ_{i}$ 最小的那些，于是对任意 $i$ ， $λ_{i} (C^{*}) \leq 2 ε$ 。

Hypercude networking routing problem

transmit message, a cable transmit 1 messgage in 1 sec

在超立方体上考虑问题。

rounting task 是一个排列。希望找到一个合理时间内能够完成的传输方式。

bit-fixing algorithm：找到第一个不同的位然后翻转。长度是 $d_{H} (i, σ (i))$ 。指数级别的延时。

posted @ 2025-03-01 17:31 qAlex_Weiq 阅读(85) 评论(2) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· CF 合集 1751-1775

· 《算法分析与设计》学习笔记

· 概统期中复习

· 程序员的数学_概率统计

· 概率统计A 知识总结

阅读排行：
· winform 绘制太阳，地球，月球运作规律
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具
· Manus的开源复刻OpenManus初探

公告

昵称： qAlex_Weiq
园龄： 4年4个月
粉丝： 919
关注： 56

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (1)

THU 课程笔记(1)

qAlex_Weiq

《计算机与人工智能应用数学》学习笔记

Lecture 1: Probability Theory Basics

概率空间 probablity space

基本计数规则 basic counting rule

基本概率工具 essential probability tool

Lecture 2: Statistics on a Probability Space

条件概率（续）conditional probability continued

随机变量 random variable

尾部估计 tail estimate

Lecture 3: Tail bounds continued

切比雪夫不等式 Chebyshev's inequality

切诺夫界 Chernoff bound

LAZYTAG

Lecture 4: Advanced Applications

熵 extropy

Shannon’s Theorem

Hypercude networking routing problem

公告

搜索

常用链接

最新随笔

我的标签

随笔分类 (1)

随笔档案 (85)

阅读排行榜

评论排行榜

推荐排行榜

最新评论