英属智利大战印属直隶

\[\newcommand{\bf}{\mathbf} \]

I. High-Dimensional Space

大数定律：样本增多时，平均值趋向于期望。具体而言，

\[\Pr\left(\left|\dfrac1n\sum x_i-E(x)\right|\geq\epsilon\right)\leq\dfrac{V(x)}{n\epsilon^2} \]

可以被 Chebyshev 证明。

\(d\) 维空间的固定半径球，随着维数增加体积趋于 \(0\)。单位球的场合，有 \(1-e^{-\epsilon d}\) 的体积集中在 \(S\setminus(1-\epsilon)S\) 的 annulus 里面，也即绝大部分体积集中在 \(O(1/d)\) 的球壳中。

嗯积可以得到，\(A(d)=\dfrac{2\pi^{d/2}}{\Gamma(d/2)},V(d)=\dfrac{2\pi^{d/2}}{d\Gamma(d/2)}\).

质量集中于 equator。\(1-\dfrac2ce^{-c^2/2}\) 的体积集中于 \(|x_1|\leq\dfrac c{\sqrt{d-1}}\) 的赤道中。

推论：从单位球中随机取 \(n\) 个点，以 \(1-O(1/n)\) 的概率，对于所有点有：

\(\|\bf x_i\|\geq1-\dfrac{2\ln n}d\)；
\(|\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}\)。

如何生成球内的随机点？使用 Spherical Gaussian，即在每一维上都是标准 Gaussian。其在每个方向的分布均相同，于是可以将结果 normalize，得到在球面上的随机点。球面随机点乘以一个关于半径的随机函数得到球体的随机点；该关于半径的随机函数与每个半径的球面面积成正比，也即 PDF 与 \(r^{d-1}\) 成正比。

Gaussian Annulus Theorem：对于所有方向都以 unit variance 分布的 Spherical Gaussian，对于一切 \(\beta\leq\sqrt d\) 以 \(1-3e^{-c\beta^2}\) 的概率 \(\sqrt d-\beta\leq\|\bf x\|\leq\sqrt d+\beta\)。

Random Projection Theorem 是一种大概率保距离的压缩数据的方式。假如要将 \(d\) 阶数据压缩为 \(k\) 阶数据，则用 Spherical Gaussian 生成 \(k\) 个随机向量并计算其在每个向量方向投影长度，构成一个 \(k\) 阶数据。以大概率地，这种压缩有 \(\|f(\bf x)\|\approx\sqrt k\|\bf x\|\)。具体而言，

\[\Pr(\big|\|f(\bf v)\|-\sqrt k\|\bf v\|\big|\geq\epsilon\sqrt k\|\bf v\|)\leq3e^{-ck\epsilon^2} \]

家人们，还是看看远处的 [Vershynin] HDP 吧。

首先，我们有一个朴素的 Hoeffding Inequality（虽然形式可能和普通的 Hoeffding 有些区别）：

定义 Symmetric Bernoulli 是 \(\Pr(X=-1)=\Pr(X=1)=\dfrac12\) 的分布。
对于独立随机的 Sym-Ber \(X_1,\dots,X_n\) 和 \(a=(a_1,\dots,a_n)\)，有：对于一切 \(t>0\)，

\[\Pr(\sum\limits_{i=1}^na_iX_i\geq t)\leq\exp(-\dfrac{t^2}{2\|a\|^2}) \]

以及更泛用的 Hoe-Ine:

对于每个 \(X_i\) 都被 \([a_i,b_i]\) bound 的随机变量，则
\[\Pr(\sum_{i=1}^nX_i-EX_i\geq t)\leq\exp(-\dfrac{2t^2}{\sum(b_i-a_i)^2}) \]

posted @ 2024-05-13 14:58 Troverld 阅读(52) 评论(1) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Troverld

博客渲染出问题了那是博客的锅，本人什么都不会做的。

英属智利大战印属直隶

I. High-Dimensional Space

公告