1 Hoeffding不等式

Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。

它的思想与Markov不等式有些类似,我们先给出它的形式:

Hoeffding不等式\(Y_1,\ldots,Y_n\)为独立观测,\(E(Y_i)=0\)\(a_i\leq Y_i\leq b_i\)。对于\(\epsilon\gt 0\)\(\forall t \gt 0\),有

\[P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2 (b_i-a_i)^2/8} \]

2 证明

首先,\(\forall t\gt 0\),利用Markov不等式,我们有

\[\begin{aligned} &P\left(\sum_{i=1}^{n} Y_i \geq \epsilon\right)\\ = & P\left(e^{t\sum_{i=1}^{n} Y_i} \geq e^{t\epsilon}\right)\\ \leq & e^{-t\epsilon} E\left(e^{t\sum_{i=1}^{n} Y_i} \right)\\ = & e^{-t\epsilon} \prod_{i=1}^{n} E\left(e^{t Y_i} \right) \end{aligned} \]

而又由于\(a_i\leq Y_i\leq b_i\),我们可将\(Y_i\)表示为\(Y_i=\alpha b_i+(1-\alpha)a_i\),其中\(\alpha=\dfrac{Y_i-a_i}{b_i-a_i}\),利用Jensen不等式以及指数函数的凸性,有

\[e^{tY}\leq \dfrac{Y_i-a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i-Y_i}{b_i-a_i} e^{ta_i} \]

两边取期望后,再构造一个函数\(g(u)\),可得

\[E\left(e^{tY}\right) \leq -\dfrac{a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i}{b_i-a_i} e^{ta_i} = e^{g(u)} \]

其中\(u=t(b_i-a_i)\)\(g(u)=-\gamma u+\log(1-\gamma+\gamma e^u)\)\(\gamma=-\dfrac{a_i}{b_i-a_i}\)

我们可知\(g(0)=g'(0)=0\),并且\(\forall u\gt 0\),有\(g''(u)\leq 1/4\)

现在,我们需要用到Taylor定理:若\(g\)为光滑函数,则\(\exists \xi\in(0,u)\),使得\(g(u)=g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2\)。利用Taylor定理,必定\(\exists \xi\in (0,u)\),使得

\[\begin{aligned} &g(u)\\ =& g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2\\ =& \dfrac{1}{2}g''(\xi) u^2\\ \leq & \dfrac{u^2}{8}\\ =& \dfrac{t^2(b_i-a_i)^2}{8} \end{aligned} \]

代回之后,我们有

\[E\left(e^{tY_i}\right) \leq e^{g(u)}\leq e^{t^2(b_i-a_i)^2/8} \]

代回最上式,得证。

3 Bernoulli分布情形

这里我们考虑一种特殊情况:Bernoulli分布。由于Bernoulli分布的随机变量是有界的,因此可以用Hoeffding不等式,该结论也可以看作是Hoeffding不等式的一种形式:

假设\(X_1,\ldots,X_n\sim \text{Bernoulli}(p)\),记\(\bar{X}_n = n^{-1}\sum_{i=1}^{n}X_i\),则\(\forall \epsilon \gt 0\),有

\[P(|\bar X_n - p|\gt \epsilon) \leq 2e^{-2n\epsilon^2} \]

证明:令\(Y_i=(1/n)(X_i-p)\),有\(E(Y_i)=0\),且\(a\leq Y_i\leq b\),其中\(a=-p/n\)\(b=(1-p)/n\)。直接应用Hoeffding不等式,有\(\forall \epsilon\gt 0\)\(\forall t \gt 0\):

\[P(\bar{X}_n -p \geq \epsilon) = P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2/(8n^2)} \]

由于上式对于任意\(t \gt 0\)都成立,取\(t=4n\epsilon\),得到

\[P(\bar{X}_n -p \geq \epsilon) \leq e^{-4n\epsilon^2} \prod_{i=1}^{n} e^{2\epsilon^2} = e^{-2n\epsilon^2} \]

同理,若令\(Y_i=(1/n)(p-X_i)\),则有

\[P(p-\bar{X}_n \geq \epsilon) =P(\bar{X}_n -p \leq -\epsilon) = e^{-2n\epsilon^2} \]

将两个不等式合并后,得证。

4 应用

我们来看一个简单的应用,目的是说明Hoeffding不等式的上限,可能会比如Chebyshev不等式等更紧。

假设\(X_1,\ldots,X_n\sim \text{Bernoulli}(p)\),取\(n=100\)\(\epsilon=0.2\),使用Chebyshev不等式,我们有

\[P(|\bar X_n - p|\gt \epsilon) \leq \dfrac{p(1-p)/n}{\epsilon^2}\leq 0.0625 \]

而使用第3节中的Hoeffding不等式,有

\[P(|\bar X_n - p|\gt \epsilon) \leq 0.00067 \]

可以看到,Hoeffding不等式的上界要小得多。