英属智利大战印属直隶

\[\newcommand{\bf}{\mathbf} \]

I. High-Dimensional Space

大数定律:样本增多时,平均值趋向于期望。具体而言,

\[\Pr\left(\left|\dfrac1n\sum x_i-E(x)\right|\geq\epsilon\right)\leq\dfrac{V(x)}{n\epsilon^2} \]

可以被 Chebyshev 证明。

\(d\) 维空间的固定半径球,随着维数增加体积趋于 \(0\)。单位球的场合,有 \(1-e^{-\epsilon d}\) 的体积集中在 \(S\setminus(1-\epsilon)S\) 的 annulus 里面,也即绝大部分体积集中在 \(O(1/d)\) 的球壳中。

嗯积可以得到,\(A(d)=\dfrac{2\pi^{d/2}}{\Gamma(d/2)},V(d)=\dfrac{2\pi^{d/2}}{d\Gamma(d/2)}\).

质量集中于 equator。\(1-\dfrac2ce^{-c^2/2}\) 的体积集中于 \(|x_1|\leq\dfrac c{\sqrt{d-1}}\) 的赤道中。

推论:从单位球中随机取 \(n\) 个点,以 \(1-O(1/n)\) 的概率,对于所有点有:

  • \(\|\bf x_i\|\geq1-\dfrac{2\ln n}d\)
  • \(|\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}\)

如何生成球内的随机点?使用 Spherical Gaussian,即在每一维上都是标准 Gaussian。其在每个方向的分布均相同,于是可以将结果 normalize,得到在球面上的随机点。球面随机点乘以一个关于半径的随机函数得到球体的随机点;该关于半径的随机函数与每个半径的球面面积成正比,也即 PDF 与 \(r^{d-1}\) 成正比。

Gaussian Annulus Theorem:对于所有方向都以 unit variance 分布的 Spherical Gaussian,对于一切 \(\beta\leq\sqrt d\)\(1-3e^{-c\beta^2}\) 的概率 \(\sqrt d-\beta\leq\|\bf x\|\leq\sqrt d+\beta\)

Random Projection Theorem 是一种大概率保距离的压缩数据的方式。假如要将 \(d\) 阶数据压缩为 \(k\) 阶数据,则用 Spherical Gaussian 生成 \(k\) 个随机向量并计算其在每个向量方向投影长度,构成一个 \(k\) 阶数据。以大概率地,这种压缩有 \(\|f(\bf x)\|\approx\sqrt k\|\bf x\|\)。具体而言,

\[\Pr(\big|\|f(\bf v)\|-\sqrt k\|\bf v\|\big|\geq\epsilon\sqrt k\|\bf v\|)\leq3e^{-ck\epsilon^2} \]


家人们,还是看看远处的 [Vershynin] HDP 吧。

首先,我们有一个朴素的 Hoeffding Inequality(虽然形式可能和普通的 Hoeffding 有些区别):

  • 定义 Symmetric Bernoulli 是 \(\Pr(X=-1)=\Pr(X=1)=\dfrac12\) 的分布。

  • 对于独立随机的 Sym-Ber \(X_1,\dots,X_n\)\(a=(a_1,\dots,a_n)\),有:对于一切 \(t>0\)

    \[\Pr(\sum\limits_{i=1}^na_iX_i\geq t)\leq\exp(-\dfrac{t^2}{2\|a\|^2}) \]

以及更泛用的 Hoe-Ine:

  • 对于每个 \(X_i\) 都被 \([a_i,b_i]\) bound 的随机变量,则

    \[\Pr(\sum_{i=1}^nX_i-EX_i\geq t)\leq\exp(-\dfrac{2t^2}{\sum(b_i-a_i)^2}) \]

posted @ 2024-05-13 14:58  Troverld  阅读(52)  评论(1编辑  收藏  举报