浅谈 Tail Bounds

前言

某人机智应数第三节课开始随机掉线了，然后只能回去看了一下发的参考书和课件，重新梳理一下老师讲的 Tail Bounds 之间的内在逻辑。所以这是一个涉及内容比较浅的梳理型博客。

首先上课反复提到了一个词 Tail Bounds，什么是 Tail Bounds 呢？如果了解过大数定律或者依靠一些直观感受，我们可以发现，如果将一大堆变量加起来考虑其和的概率密度图像，那么基本上会是在和的期望 $\mu$ 附近形成一个峰，峰向左右两边拖出两个尾巴。Tail Bounds 囊括了这样一些不等式：我们不关心接近峰的部分，而是关注远离峰的两个尾巴积起来概率的上界。即关注 $\Pr(|X-\mu|\ge c)$ 这种形式的概率拥有的一个上界。Tail Bounds 常常会分别关注 $\Pr(X\ge c)$ 和 $\Pr(X\le c)$ ，也就是分别估计上尾和下尾。

之后的课上举了几个应用 Tail Bounds 中的概率不等式的例子，其实就是在让我们体会为什么要关心 Tail Bounds。比如说我们估计出了某个随机算法，它的结果期望接近于某个数，我们就可以用 Tail Bounds 估计其远离这个数的概率到底有多小？是否在我们可接受的范围内？（比如，这两节课讲了一个随机图的最大团在 $(2 \pm \epsilon)\log_2 n$ 之间，而你可以直接使用贪心算法以极大概率得出一个 $\log_2 n\pm \log_2\log_2 n$ 之间的团）。

接下来就是具体的几个 Tail Bounds。

Markov's & Chebyshev's Inequality

对于随机变量 $X$ ，记其期望 $\mathrm E(X)=\mu$ ，标准差 $\sqrt {\mathrm {Var}(X)}=\sigma$ 。

我们首先关注一下上尾有没有什么粗糙的估计。

Markov 不等式首先必须满足 $c>0$ 。对于 $\Pr(X\ge c)$ ，我们定义由 $X$ 决定的变量 $Y=\begin{cases} 0 & (X < c) \\ c & (X \ge c) \end{cases}$ 。可以发现 $\Pr(X\ge c)=\frac{\mathrm E(Y)}{c}$ ，而 $Y\le X$ 又恒成立，所以 $\Pr(X\ge c)=\frac{\mathrm E(Y)}{c}\le \frac{\mathrm E(X)}{c}$ 。也可以写成另一种形式 $\Pr\{X\ge c\mu\}\le \frac{1}{c}$ 。这个界有点过于粗糙了。

在 Markov 不等式中，我们取 $X'=(X-\mu)^2,c'=c^2$ ，得到了 $\Pr\{(X-\mu)^2\ge c^2\mathrm{Var}(X)\}\le \frac{1}{c^2}$ ，开根得到 $\Pr\{|X-\mu|\ge c\sigma\}\le \frac{1}{c^2}$ 。这就是 Chebyshev 不等式。其在期望附近的估计效果相对来说更好一些。

那我们就会开始想，我们把 $(X-\mu)^2$ 带入可以得到一个新的不等式。尝试将 $|X-\mu|^k$ 和 $c^k$ 带入呢？我们就得到了 $\Pr\{|X-\mu|\ge c\sqrt[k]{\nu_k}\}\le \frac{1}{c^k}$ ，其中 $\nu_k=\mathrm E\{|X-\mu|^k\}$ 。

这个想法揭示了 Markov 不等式的强扩展性。虽然它本身比较粗糙，但是可以通过复合一些性质更好的函数来达到更好的近似效果。

考虑推导 Markov 不等式的方法。我们构造被 $X$ 决定的 $Y=\begin{cases} 0 & (X < c) \\ 1 & (X \ge c) \end{cases}$ ，其期望恰是 $\Pr(X\ge c)$ ，比较其和原变量 $X$ 就得到了之间期望的大小关系。

假设对于一个在 $[c,+\infty)$ 上递增的恒正函数 $f$ ，定义 $Z=\frac{f(X)}{f(c)}$ 。 $Z$ 在 $X<c$ 时 $Z$ 也恒正，在 $X\ge c$ 时恒 $\ge 1$ ，所以 $Y\le Z$ 恒成立。而 $\mathrm E(Z)=\frac{\mathrm E(f(X))}{f(c)}$ ，我们就得到了广义 Chebyshev 不等式：

$\Pr(X\ge c) \le \frac{\mathrm E(f(X))}{f(c)}$

注意与 Markov 不等式不同，这个不等式并没有要求 $c>0$ ，因为 $\frac{f(X)}{f(c)}\ge 1(X\ge c)$ 只需要用到 $f$ 恒正和 $[c,+\infty)$ 递增的性质。

矩与矩生成函数

在查资料高次幂情况下的切比雪夫不等式的时候出现了一个很有意思的名词，矩，它们的定义是长成这样的：

$k$ 阶中心矩 $\mu_k=\mathrm E\{(X-\mu)^k\}$ ， $k$ 阶绝对中心矩 $\nu_k=\mathrm E\{|X-\mu|^k\}$ ， $k$ 原点矩 $\mathrm E(X^k)$ ， $k$ 阶标准矩 $\frac{\mu_k^k}{\sigma^k}$ 。

可以发现矩（Moment）这个名词指的是一个关于 $X$ 的最高次项为 $k$ 多项式的期望，OIer 可能看到这里会笑一笑，毕竟大家肯定见过什么将 $k$ 次方期望拆成 $0\sim k$ 次方的期望然后维护一整个数组的计数题之类的东西。这告诉我们各种各样定义不同但阶数相同的矩，经过一定的变换本质上是非常相同的，基本描述了分布的同一个性质。统计学意义上一阶矩就是熟知的期望，描述了分布的中心，二阶（中心）矩描述了方差，也就是分布的离散程度。三阶四阶的标准矩分别称为偏度和峰度，似乎也描述了分布的一些几何性质。（我还没了解就是了）

如何用一个东西统一性的描述所有阶数矩的呢？考虑矩生成函数（Moment Generating Function，MGF） $M_X(t)=\mathrm E(e^{tX})$ 。

如果我们展开 $e^x$ 再用线性性拆开，就得到了 $M_X(t)=\sum_{k=0}^{+\infty} \frac{t^k\mathrm E(X^k)}{k!}$ ，也就是说，MGF 就是矩的 EGF。我们发现 $k$ 阶原点矩就等于 $M_X^{(k)}(0)$ 。所以说，你可以预先计算好一些常见分布的矩生成函数，计算矩的时候就有了一种更加机械的方法。（吐槽：目前没发现矩生成函数有任何本质性的作用呢？仅仅是赋予了 $e^{tX}$ 的期望一个名字吗？）

矩生成函数的思想告诉我们 $e^X$ 是一个神奇的函数，它实际上综合了 $X$ 所有矩的性质。我们前面使用了 $k$ 阶矩带入了 Markov 不等式，现在考虑使用 $f(X)=e^{tX}$ 带入广义切比雪夫不等式，又会得到什么结果呢？

当 $t>0$ 时， $f(X)=e^{tX}$ 是一个关于 $X$ 的恒正递增函数，我们有：

Pr (X \geq c) \leq e^{- t c} E (e^{t X}) = e^{- t c} M_{X} (t)

$\Pr(X\ge c)\le e^{-tc} \mathrm E(e^{tX})=e^{-tc}M_X(t)$

这是一个关于上尾的不等式，关于下尾，经过一些取反和取倒数同样可以得到：

\forall t < 0, Pr (X \leq c) \leq e^{- t c} M_{X} (t)

$\forall t<0,\Pr(X\le c)\le e^{-tc}M_X(t)$

这与后面讲的 Chernoff Bound 密切相关。

Chernoff's Bound

我们刚才在探究 Tail Bounds 的时候都是在研究单个无限制变量 $X$ 的情况。然而正如我们在前言中所说，Tail Bounds 的多数应用场景是比较特化的，研究大数定律的作用下有峰值的概率分布（毕竟只有尾足够小的时候才关心尾到底有多小）。

如果关心 $n$ 个独立随机变量的和，利用 Chebyshev 不等式可知其远离期望的某个尾 $\Pr\{|X-\mu|\ge c\}$ 在 $n\to +\infty$ 的时候是趋近于 $0$ 的，这个结果被称为弱大数定律（注意弱大数定律要求独立但不要求同分布，比较有普遍性）。

在考虑多个变量的和的时候，有没有什么比 Chebyshev 不等式更紧的估计呢？

考虑这样一个场景，有 $n$ 独立个服从伯努利分布的变量 $X_i$ （即， $\Pr\{X_i=1\}=p_i$ ， $\Pr\{X_i=0\}=1-p_i$ ）。对于 $X=\sum_{i=1}^n X_i$ ，我们先来考虑估计上尾。

我们已经知道：

Pr {X \geq c} \leq e^{- t c} M_{X} (t)

$\Pr\{X\ge c\} \le e^{-tc}M_X(t)$

令 $c=(1+\delta)\mu$ ，其中 $\delta >0$ ：

Pr {X \geq (1 + δ) μ} \leq e^{- t (1 + δ) μ} M_{X} (t)

$\Pr\{X\ge (1+\delta)\mu\} \le e^{-t(1+\delta)\mu}M_X(t)$

对于独立的两个的变量 $A,B$ ，显然有 $M_A(t)M_B(t)=M_{A+B}(t)$ ，所以：

Pr {X \geq (1 + δ) μ} \leq e^{- t (1 + δ) μ} \prod_{i = 1}^{n} M_{X_{i}} (t)

$\Pr\{X\ge (1+\delta)\mu\} \le e^{-t(1+\delta)\mu} \prod_{i=1}^n M_{X_i}(t)$

对于伯努利分布，容易得到其 MGF $M_{X_i}=p_i(e^t-1)+1$ ，综合不等式 $1+x\le e^x$ ，得到：

\begin{aligned} Pr {X \geq (1 + δ) μ} & \leq e^{- t (1 + δ) μ} \prod_{i = 1}^{n} [p_{i} (e^{t} - 1) + 1] \\ \leq e^{- t (1 + δ) μ} \prod_{i = 1}^{n} e^{p_{i} (e^{t} - 1)} \\ = \exp (- t (1 + δ) μ + \sum_{i = 1}^{n} p_{i} (e^{t} - 1)) \\ = \exp {e^{t} - 1 - (1 + δ) t}^{μ} \end{aligned}

$\begin{aligned} \Pr\{X\ge (1+\delta)\mu\} &\le e^{-t(1+\delta)\mu} \prod_{i=1}^n\left[ p_i(e^t-1)+1\right]\\ &\le e^{-t(1+\delta)\mu} \prod_{i=1}^n e^{p_i(e^t-1)}\\ &= \exp\left( -t(1+\delta)\mu+\sum_{i=1}^n p_i(e^t-1)\right) \\ &= \exp\left\{e^t-1-(1+\delta)t \right\}^\mu \end{aligned}$

（最后一步是因为 $\mu=\sum_{i=1}^n p_i$ ）

我们总是期望这个界尽可能紧。于是我们考虑选择一个 $t>0$ ，最小化 $\exp$ 里面那堆式子。而求导可知对于 $c>1$ 时有 $\operatorname{argmin}_{t>0} e^t-ct=\ln c$ ，所以代入 $t=\ln(1+\delta)$ 我们有：

Pr {X \geq (1 + δ) μ} \leq {[\frac{e^{δ}}{(1 + δ)^{1 + δ}}]}^{μ}

$\Pr\{X\ge (1+\delta)\mu\}\le \left[ \frac{e^{\delta}}{(1+\delta)^{1+\delta}} \right]^\mu$

这个美妙的结果就是 Chernoff Bound 对上尾的估计了！

同样的，对于下尾我们有， $\forall \delta \in (0,1)$ ：

\begin{aligned} Pr {X \leq (1 - δ) μ} & \leq e^{- t (1 - δ) μ} \prod_{i = 1}^{n} [p_{i} (e^{t} - 1) + 1] \\ \leq \exp {e^{t} - 1 - t (1 - δ)}^{μ} \end{aligned}

$\begin{aligned} \Pr\{X\le (1-\delta)\mu\}&\le e^{-t(1-\delta)\mu} \prod_{i=1}^n [p_i(e^t-1)+1]\\ & \le \exp\{e^t-1-t(1-\delta)\}^\mu \end{aligned}$

对于 $t<0$ 的情况，由于 $c\in (0,1)$ ，所以 $\operatorname{argmin}_{t<0} e^t-ct$ 依然是 $\ln c$ ，代入 $t=\ln(1-\delta)$ 即有：

Pr {X \leq (1 - δ) μ} \leq {[\frac{e^{- δ}}{(1 - δ)^{1 - δ}}]}^{μ}

$\Pr\{X\le (1-\delta)\mu\}\le \left[ \frac{e^{-\delta}}{(1-\delta)^{1-\delta}}\right ]^\mu$

综上所述，Chernoff's Bound 也即：

$\forall \delta \in (0,+\infty),\Pr\{X\ge (1+\delta)\mu\}\le \left[ \frac{e^{\delta}}{(1+\delta)^{1+\delta}} \right]^\mu\\ \forall \delta\in (0,1),\Pr\{X\le (1-\delta)\mu\}\le \left[ \frac{e^{-\delta}}{(1-\delta)^{1-\delta}}\right ]^\mu$

需要注意 Chernoff's Bound 成立要求 $X$ 是一堆伯努利分布的随机独立变量之和。

Corollaries of Chernoff's Bound

Chernoff Bound 的有用之处在于它关于尾部分布提出了随着远离中心指数递减的边界。我们刚刚推导的 Chernoff's Bound 形式上比较复杂，而实际上我们有一些形式更加简单的上界。

对于上尾我们可以证明其不超过 $\exp\left(-\frac{\delta^2}{\delta+2}\right)$ ，下尾我们可以证明其不超过 $\exp\left(-\frac{\delta^2}{2}\right)$ 。

（ $\forall x>0$ ，上尾只需证： $\ln(x+1)\ge \frac{2x}{x+2}$ ，下尾只需证 $\ln(x+1)\ge x-\frac{x^2}{2}$ ，前者可以求导，后者直接带拉格朗日余项的泰勒展开可证）

如果追求上下尾的形式相近， $\delta\in(0,1)$ 的时候上尾不超过 $\exp\left(-\frac{\delta^2}{3}\right)$ 。

带入 Chernoff Bound 可以知道这样一个事实， $c\ge 6\mu$ 的时候， $\Pr\{X\ge c\}$ 的衰减已经超过了 $2^{-c}$ 了。

（老师上课写的 Corollary 似乎关于 $\exp\left(-\frac{\delta^2}{3}\right)$ 没写 $\delta \in(0,1)$ ，后面那个界写的是更粗糙的 $c\ge 7\mu$ ？也有可能是我搞错了）

Hoeffding's Bound

Chernoff's Bound 只对伯努利分布的变量之和管用，那么有没有对于任意变量更加通用的形式呢？

考虑对于 $n$ 个有界独立随机变量的 $X_i(X_i\in[a_i,b_i])$ 的平均值 $\overline X$ ，记 $\overline \mu=\mathrm E(\overline X)$ ，那么 $\forall c\ge 0$ ，
Hoeffding's Bound 给出了：

$\Pr\left\{\overline X\ge \overline\mu+c \right\} \le \exp \left(- \frac{2n^2c^2}{\sum_{i=1}^n (b_i-a_i)^2}\right)\\ \Pr\left\{\overline X\le \overline\mu-c \right\} \le \exp \left(- \frac{2n^2c^2}{\sum_{i=1}^n (b_i-a_i)^2}\right)$

为了证明 Hoeffding's Bound，我们需要一个引理 Hoeffding's Lemma：

对于某有界随机变量 $X(X\in[a,b])$ ，如果 $\mathrm E(X)=0$ ，那么 $M_X(t)\le e^{\frac{t^2(b-a)^2}{8}}$

上课老师把 Hoeffding's Lemma 的证明跳过去了，于是在网上查了一些证明，所有证明都用了凹凸性 & 泰勒展开，确实挺麻烦的，如果上课确实讲怎么也讲不完了。

（事后证明有点舍近求远了，老师发的那本 All of Statistics 后面就附了 Hoeffding 不等式的证明）

对于 $a=b=0$ 的情况 Hoeffding's Lemma 显然成立，所以可以认为 $a>0,b<0$ 。

由琴生不等式，有 $e^{tX}\le \frac{b-X}{b-a}e^{ta}+\frac{X-a}{b-a} e^{tb}$ ，两边取期望有：

M_{X} (t) \leq \frac{b e^{t a} - a e^{t b}}{b - a}

$M_X(t)\le\frac{be^{ta}-ae^{tb}}{b-a}$

为了 Hoeffding's Lemma，我们考虑证明 $\frac{be^{ta}-ae^{tb}}{b-a}\le e^{\frac{t^2(b-a)^2}{8}}$ ，两边取对数，即需证：

\ln (b e^{t a} - a e^{t b}) - \ln (b - a) \leq \frac{t^{2} (b - a)^{2}}{8}

$\ln(be^{ta}-ae^{tb})-\ln(b-a) \le \frac{t^2(b-a)^2}{8}$

设 $f(t)=\ln(be^{ta}-ae^{tb})-\ln(b-a)$ ，那么：

f (0) = 0 f^{'} (0) = {\frac{a b (e^{t a} - e^{t b})}{b e^{t a} - a e^{t b}} |}_{t = 0} = 0 f^{″} (t) = - \frac{a b (b - a)^{2} e^{(a + b) t}}{(b e^{t a} - a e^{t b})^{2}} = \frac{b e^{t a}}{b e^{t a} - a e^{t b}} \cdot \frac{- a e^{t b}}{b e^{t a} - a e^{t b}} \cdot (b - a)^{2} \leq \frac{(b - a)^{2}}{4}

$f(0)=0\\ f'(0)=\left.\frac{ab(e^{ta}-e^{tb})}{be^{ta}-ae^{tb}}\right |_{t=0}=0\\ f''(t)=-\frac{ab(b-a)^2e^{(a+b)t}}{(be^{ta}-ae^{tb})^2}=\frac{be^{ta}}{be^{ta}-ae^{tb}}\cdot \frac{-ae^{tb}}{be^{ta}-ae^{tb}}\cdot (b-a)^2 \le \frac{(b-a)^2}{4}$

（最后一步是因为注意到了 $\frac{be^{ta}}{be^{ta}-ae^{tb}}=1- \frac{-ae^{tb}}{be^{ta}-ae^{tb}}$ ，利用均值不等式二者乘积不超过 $\frac{1}{4}$ ）

将 $f(t)$ 进行带拉格朗日余项的泰勒展开，我们就得到了： $f(t)=f(0)+f'(0)t+\frac{1}{2}f''(\xi)t^2\le \frac{(b-a)^2t^2}{8}$ ，其中 $\xi$ 介于 $0$ 和 $t$ 之间。

综上所述，Hoeffding's Lemma 得证。

回到 Hoeffding's Bound，依旧是首先考虑上尾，我们知道：

Pr {\bar{X} - \bar{μ} \geq c} \leq e^{- t c} M_{\bar{X} - \bar{μ}} (t) = e^{- t c} \prod_{i = 1}^{n} M_{\frac{X_{i} - E (X_{i})}{n}} (t)

$\Pr\{\overline X-\overline \mu\ge c\}\le e^{-tc}M_{\overline X-\overline \mu}(t)=e^{-tc}\prod_{i=1}^n M_{\frac{X_i-\mathrm E(X_i)}{n}}(t)$

（后面一步由期望的线性性直接拆开平均值定义得到）

而 $\frac{X_i-\mathrm E(X_i)}{n}$ 的期望为 $0$ 且有界 $[\frac{a_i-\mathrm E(X_i)}{n},\frac{b_i-\mathrm E(X_i)}{n}]$ ，适用 Hoeffding's Lemma：

Pr {\bar{X} - \bar{μ} \geq c} \leq e^{- t c} \prod_{i = 1}^{n} \exp (\frac{t^{2} (b_{i} - a_{i})^{2}}{8 n^{2}}) = e^{- t c + w t^{2}}

$\Pr\{\overline X-\overline\mu \ge c\}\le e^{-tc}\prod_{i=1}^n \exp\left ({\frac{t^2(b_i-a_i)^2}{8n^2}}\right)=e^{-tc+wt^2}$

其中 $w=\sum_{i=1}^n \frac{(b_i-a_i)^2}{8n^2}$ 。同样的，我们需要取一个合适的 $t$ 使得界最紧，然而指数部分就是一个关于 $t$ 的二次函数，所以最小值很容易得到：

Pr {\bar{X} - \bar{μ} \geq c} \leq {e^{- t c + w t^{2}} |}_{t = \frac{c}{2 w}} = e^{- \frac{c^{2}}{4 w}} = \exp (- \frac{2 n^{2} c^{2}}{\sum_{i = 1}^{n} (b_{i} - a_{i})})

$\Pr\{\overline X-\overline\mu \ge c\}\le \left. e^{-tc+wt^2} \right|_{t=\frac{c}{2w}}=e^{-\frac{c^2}{4w}}=\exp\left(-\frac{2n^2c^2}{\sum_{i=1}^n (b_i-a_i)}\right)$

Hoeffding's Bound 的上尾得证，下尾也同理。