英属智利大战印属直隶
I. High-Dimensional Space
大数定律:样本增多时,平均值趋向于期望。具体而言,
可以被 Chebyshev 证明。
\(d\) 维空间的固定半径球,随着维数增加体积趋于 \(0\)。单位球的场合,有 \(1-e^{-\epsilon d}\) 的体积集中在 \(S\setminus(1-\epsilon)S\) 的 annulus 里面,也即绝大部分体积集中在 \(O(1/d)\) 的球壳中。
嗯积可以得到,\(A(d)=\dfrac{2\pi^{d/2}}{\Gamma(d/2)},V(d)=\dfrac{2\pi^{d/2}}{d\Gamma(d/2)}\).
质量集中于 equator。\(1-\dfrac2ce^{-c^2/2}\) 的体积集中于 \(|x_1|\leq\dfrac c{\sqrt{d-1}}\) 的赤道中。
推论:从单位球中随机取 \(n\) 个点,以 \(1-O(1/n)\) 的概率,对于所有点有:
- \(\|\bf x_i\|\geq1-\dfrac{2\ln n}d\);
- \(|\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}\)。
如何生成球内的随机点?使用 Spherical Gaussian,即在每一维上都是标准 Gaussian。其在每个方向的分布均相同,于是可以将结果 normalize,得到在球面上的随机点。球面随机点乘以一个关于半径的随机函数得到球体的随机点;该关于半径的随机函数与每个半径的球面面积成正比,也即 PDF 与 \(r^{d-1}\) 成正比。
Gaussian Annulus Theorem:对于所有方向都以 unit variance 分布的 Spherical Gaussian,对于一切 \(\beta\leq\sqrt d\) 以 \(1-3e^{-c\beta^2}\) 的概率 \(\sqrt d-\beta\leq\|\bf x\|\leq\sqrt d+\beta\)。
Random Projection Theorem 是一种大概率保距离的压缩数据的方式。假如要将 \(d\) 阶数据压缩为 \(k\) 阶数据,则用 Spherical Gaussian 生成 \(k\) 个随机向量并计算其在每个向量方向投影长度,构成一个 \(k\) 阶数据。以大概率地,这种压缩有 \(\|f(\bf x)\|\approx\sqrt k\|\bf x\|\)。具体而言,
家人们,还是看看远处的 [Vershynin] HDP 吧。
首先,我们有一个朴素的 Hoeffding Inequality(虽然形式可能和普通的 Hoeffding 有些区别):
-
定义 Symmetric Bernoulli 是 \(\Pr(X=-1)=\Pr(X=1)=\dfrac12\) 的分布。
-
对于独立随机的 Sym-Ber \(X_1,\dots,X_n\) 和 \(a=(a_1,\dots,a_n)\),有:对于一切 \(t>0\),
\[\Pr(\sum\limits_{i=1}^na_iX_i\geq t)\leq\exp(-\dfrac{t^2}{2\|a\|^2}) \]
以及更泛用的 Hoe-Ine:
- 对于每个 \(X_i\) 都被 \([a_i,b_i]\) bound 的随机变量,则\[\Pr(\sum_{i=1}^nX_i-EX_i\geq t)\leq\exp(-\dfrac{2t^2}{\sum(b_i-a_i)^2}) \]