有些量很难计算,不等式可以对这些量给出一个界。例如,我们没有足够的信息来计算所需的量(例如事件的概率或随机变量的预期值);又或者,问题可能很复杂,精确计算可能非常困难;还有些情况,我们可能希望提供一个通用的、适用于广泛问题的结果。
本节将学习两个不等式:Markov与Chebyshev不等式。
直观理解Markov不等式
我们凭直觉大致可以理解,观察值不会偏离期望值太多。Markov不等式和Chebyshev不等式把这种直觉放在坚实的数学基础上。接下来我们利用下面的图帮助我们理解这两个不等式:
其中,\(t\)是一个正数。蓝线(函数,输入小于\(t\)时,值是0,否则是\(t\))在绿线(恒等函数)之下,我们可以得出以下不等式:
设随机变量\(X\)取非负数,\(p(i)\)表示\(i\)出现的概率,对上面不等式对应第\(i\)项乘\(p(i)\)得到:
即得到Markov不等式:
从上面的图也可以看出等号成立的条件,即对所有\(i \neq 0,n\)时,\(p(i) = 0\)。不等式可以推广到所有取非负数的随机变量。
Markov不等式:
令\(X\)为非负随机变量,且假设\(E(X)\)存在,则对任意\(t>0\),有\[P[X \ge t] \leq \frac{E(X)}{t} \]
此外,当 \(t = k\mu\),\(\mu = E(X)\),\(P(X>k\mu) \leq \frac{1}{k}\):
- 当 \(k>1\)时,表示随机变量的取值离期望不会太远(离期望较远的概率很小,小于\(\frac{1}{k}\))。\(P(X>2\mu)\leq 0.5\) ,\(P(X>3\mu)\leq 0.33\);
- 当\(0 <k \leq 1\)时,\(1/k \geq 1\),上式总成立表示\(P(A) \leq 1\)。
Morkov不等式的数学证明
对于1.1中的不等式关系进行证明如下:
Chebyshev不等式
Chebyshev不等式:
令\(\mu = E(X), \sigma^{2} = D(X)\),则:\[P(|X - \mu| \geq t) \leq \frac{\sigma^2}{t^2} \qquad (1) \]令\(Z = \frac{X-\mu}{\sigma}\),
\[P(|Z| \ge k) \leq \frac{1}{k^2} \qquad (2) \]
对于\((1)\)式的证明,借助Morkov不等式如下:
\(P(|X-\mu| \ge t) = P((X-\mu)^2 \ge t^2)
\leq \frac{E( X - \mu )^2}{t^2}
= \frac{\sigma^2}{t^2}\)
对于\((2)\)式的证明:
$P(|Z| \ge k) = P(|\frac{X-\mu}{\sigma}| \ge k) = P(|X-\mu| \ge k\sigma) \le \frac{\sigma2}{k2\sigma^2} = \frac{1}{k^2} \(
如\)P(|Z| \ge 2) \leq 1/4 \(,\)P(|Z| \ge 3) \leq 1/9 $
\(X\)在其期望附近(\(t\)邻域)的概率与方差\(\sigma^2\)有关:
- \(\sigma^2\)越大,随机变量离期望的概率越大(方差用于度量随机变量围绕均值的散布程度);
- \(\sigma^2\)越大,随机变量在期望附近,远离期望的概率越小。
需要注意的是,Chebyshev不等式没有限定分布的形式,所以应用广泛,但这个界很松,对某些具体的分布来说,可以得到更紧致的界,如高斯分布 \(Z ~N(0,1)\)
得到米尔不等式(Mill's inequality):
同样算$P(|Z| \geq 3) = 0.00295 $,比Chebyshev不等式算出来的\(1/9\)要小。
例题:假设我们在一个有\(n\)个测试样本的测试集上测试一个预测方法(以神经网络为例)。若预测错误则设置\(X_i = 1\),预测正确则设置\(X_i = 0\)。则\(\overline{X_n} = n^{-1}\sum_{i=1}^{n}X_i\)为观测到的错误率。每个\(X_i\)可视为有未知均值\(p\)的Bernoulli分布。我们想支持真正的错误率\(p\)。直观地,我们希望\(\overline{X_n}\)接近\(p\)。但\(\overline{X_n}\)有多大可能不在\(p\)的\(\epsilon\)邻域内?
\(D(\overline{X}) = D(X_1)/n^2 = p(1-p)n\),
\(P(|\overline{X_n} - p| \geq \epsilon ) \leq \frac{D(\overline{X}) }{\epsilon^{2}} = \frac{p(1-p)}{n\epsilon^2} \leq \frac{1}{4n\epsilon^2}\)
由于对任意\(p\)有\(p(1-p) \leq 1/4\),所以当\(\epsilon = 0.2\),\(n=100\) 时,边界为0.0625。
Reference
- 《All of Statistics: A Concise Course in Statistical Inference》by Wasserman, Larry
- [The Markov and Chebyshev Inequalities](