霍夫丁(Hoeffding)不等式
1. 霍夫丁引理
设 $X$ 是均值为 0 的随机变量,即 $E(X) = 0$,且 $X \in [a,b]$,则对于任意的 $\lambda \in R$ ,可以得到一个关于区间长度 $b-a$ 的不等式
$$E(e^{\lambda X}) \leq exp \left \{ \frac{\lambda ^{2}(b-a)^{2}}{8} \right \}$$
由于随机变量的期望为 0,所以必定有 $a < 0,b > 0$。
引理证明:
$e^{\lambda X}$ 在区间 $[a,b]$ 上是凹函数,由凹函数(函数凹凸性)的定义可得
$$e^{\lambda X} \leq \frac{b-X}{b-a}e^{\lambda a} + \frac{X-a}{b-a}e^{\lambda b}$$
对不等式两边求数学期望有
$$E\left ( e^{\lambda X} \right ) \leq \frac{b-E(X)}{b-a}e^{\lambda a} + \frac{E(X)-a}{b-a}e^{\lambda b}$$
由于 $E(X) = 0$,则
$$E\left ( e^{\lambda X} \right ) \leq \frac{b}{b-a}e^{\lambda a} - \frac{a}{b-a}e^{\lambda b}$$
考察上式不等式右侧,代入期望后,右侧的表达式只含有未知变量 $\lambda$,结合 $a < 0,b > 0$,有
$$\frac{b}{b-a}e^{\lambda a} - \frac{a}{b-a}e^{\lambda b} > 0$$
$$\frac{b}{b-a}e^{\lambda a} - \frac{a}{b-a}e^{\lambda b} = e^{\lambda a}(\frac{b}{b-a} - \frac{a}{b-a}e^{\lambda (b-a)}) = exp\left \{ \lambda a + ln(\frac{b}{b-a} - \frac{a}{b-a}e^{\lambda (b-a)})\right \}$$
将最复杂的部分进行换元,令 $h=\lambda (b-a),p=\frac{-a}{b-a}$,于是有
$$exp\left \{ \lambda a + ln(\frac{b}{b-a} - \frac{a}{b-a}e^{\lambda (b-a)})\right \} = exp\left \{ -hp + ln( 1-p+pe^{h} ) \right \}$$
考察函数
$$L\left ( h \right ) = -hp + ln( 1-p+pe^{h})$$
利用泰勒公式将其在 $x = 0$ 处展开,得
$$L(h) = L(0) + L^{'}(0)h + \frac{L^{''}(\xi)}{2}h^{2}$$
其中 $\xi$ 处于 0 和 $h$ 之间。对 $L(h)$ 求导得
$$L^{'}(h) = -p + \frac{pe^{h}}{1-p+pe^{h}}$$
$$L^{''}(h) = \frac{pe^{h}(1-p + pe^{h}) - p^{2}e^{2h}}{(1-p+pe^{h})^{2}} = \frac{pe^{h}}{1-p+pe^{h}}(1-\frac{pe^{h}}{1-p+pe^{h}}) = t(1-t) \leq \frac{1}{4}$$
由于 $L(0) = 0$,$L^{'}(0) = 0$,所以
$$L(h) \leq \frac{1}{8}h^{2} = \frac{\lambda ^{2}(b-a)^{2}}{8}$$
所以,最终可以得到
$$E(e^{\lambda X}) \leq exp \left \{ \frac{\lambda ^{2}(b-a)^{2}}{8} \right \}$$
证毕
2. 霍夫丁不等式
设 $S_{n} = \sum_{i=1}^{n}X_{i}$ 是独立随机变量 $X_{1},X_{2},...,X_{n}$ 之和,$X_{i} \in [a_{i},b_{i}]$,则对任意的 $t > 0$,以下不等式成立
$$P\left \{ S_{n} -ES_{n} \geq t\right \} = P\left \{ ES_{n} - S_{n} \geq t\right \} \leq exp \left \{ \frac{-2t^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}} \right \}$$
证明:
额外引入变量 $s>0$,则
$$P\left \{ S_{n} -ES_{n} \geq t\right \} = P\left \{ s(S_{n} -ES_{n}) \geq st\right \} = P\left \{ e^{s(S_{n} -ES_{n})} \geq e^{st}\right \}$$
由马尔可夫不等式(参考博客)得
$$P\left \{ e^{s(S_{n} -ES_{n})} \geq e^{st}\right \} \leq \frac{E[e^{s(S_{n} -ES_{n})}]}{e^{st}} = \frac{E[e^{s(\sum_{i=1}^{n}X_{i} - \sum_{i=1}^{n}E(X_{i}))}]}{e^{st}} = \frac{E[e^{s\sum_{i=1}^{n}[X_{i} - E(X_{i})]}]}{e^{st}} = \frac{\prod_{i=1}^{n}E[e^{s[X_{i} - E(X_{i})]}]}{e^{st}}$$
令随机变量 $Y_{i} = X_{i} - E(X_{i})$,则 $E(Y_{i}) = 0$,我们无法知道 $Y_{i}$ 所在的区间,但是它所在区间的长度为 $b_{i}-a_{i}$,由霍夫丁引理可得
$$e^{-st}\prod_{i=1}^{n}E[e^{s[X_{i} - E(X_{i})]}] \leq e^{-st}\prod_{i=1}^{n}e^{\frac{s^{2}(b_{i}-a_{i})^{2}}{8}} = exp\left \{ -st + \sum_{i=1}^{n}\frac{1}{8}s^{2}(b_{i}-a_{i})^{2} \right \}$$
考察函数
$$g\left ( s \right ) = -st + \sum_{i=1}^{n}\frac{1}{8}s^{2}(b_{i}-a_{i})^{2},s>0$$
求导数有
$$g^{'}(s) = -t + \sum_{i=1}^{n}\frac{1}{4}s(b_{i} - a_{i})^{2}$$
令 $g^{'}(s) = 0$ 得
$$s^{*} = \frac{4t}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}}$$
$$g(s^{*}) = \frac{-2t^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}}$$
因为 $\forall s > 0$,都有不等式成立,因此取右边关于 $s$ 的二次函数的最小值,有
$$P\left \{ S_{n} -ES_{n} \geq t\right \} \leq exp \left \{ \frac{-2t^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}} \right \}$$
证毕
由一般式得到特殊形式:$X_{i} \in [0,1]$,则 $\frac{X_{i}}{n} \in [0,\frac{1}{n}]$,对 $\frac{X_{i}}{n}$ 使用霍夫丁不等式有
$$P\left \{ \sum_{i=1}^{n}\frac{X_{i}}{n} -E(\sum_{i=1}^{n}\frac{X_{i}}{n}) \geq t\right \} = P\left \{ \overline{X} - E(\overline{X}) \geq t\right \} \leq exp \left \{ \frac{-2t^{2}}{\sum_{i=1}^{n}(\frac{1}{n}-0)^{2}} \right \} = exp\left \{ -2nt^{2} \right \},t > 0$$
注意:随机变量 $X_{1},X_{2},...,X_{n}$ 并没有说明来自同一个总体,也不一定同分布,所以只能写成 $E(\overline{X})$。