英属智利大战印属直隶

I. High-Dimensional Space

大数定律:样本增多时,平均值趋向于期望。具体而言,

Pr(|1nxiE(x)|ϵ)V(x)nϵ2

可以被 Chebyshev 证明。

d 维空间的固定半径球,随着维数增加体积趋于 0。单位球的场合,有 1eϵd 的体积集中在 S(1ϵ)S 的 annulus 里面,也即绝大部分体积集中在 O(1/d) 的球壳中。

嗯积可以得到,A(d)=2πd/2Γ(d/2),V(d)=2πd/2dΓ(d/2).

质量集中于 equator。12cec2/2 的体积集中于 |x1|cd1 的赤道中。

推论:从单位球中随机取 n 个点,以 1O(1/n) 的概率,对于所有点有:

  • \|\bf x_i\|\geq1-\dfrac{2\ln n}d
  • |\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}

如何生成球内的随机点?使用 Spherical Gaussian,即在每一维上都是标准 Gaussian。其在每个方向的分布均相同,于是可以将结果 normalize,得到在球面上的随机点。球面随机点乘以一个关于半径的随机函数得到球体的随机点;该关于半径的随机函数与每个半径的球面面积成正比,也即 PDF 与 rd1 成正比。

Gaussian Annulus Theorem:对于所有方向都以 unit variance 分布的 Spherical Gaussian,对于一切 βd13ecβ2 的概率 \sqrt d-\beta\leq\|\bf x\|\leq\sqrt d+\beta

Random Projection Theorem 是一种大概率保距离的压缩数据的方式。假如要将 d 阶数据压缩为 k 阶数据,则用 Spherical Gaussian 生成 k 个随机向量并计算其在每个向量方向投影长度,构成一个 k 阶数据。以大概率地,这种压缩有 \|f(\bf x)\|\approx\sqrt k\|\bf x\|。具体而言,

\Pr(\big|\|f(\bf v)\|-\sqrt k\|\bf v\|\big|\geq\epsilon\sqrt k\|\bf v\|)\leq3e^{-ck\epsilon^2}


家人们,还是看看远处的 [Vershynin] HDP 吧。

首先,我们有一个朴素的 Hoeffding Inequality(虽然形式可能和普通的 Hoeffding 有些区别):

  • 定义 Symmetric Bernoulli 是 Pr(X=1)=Pr(X=1)=12 的分布。

  • 对于独立随机的 Sym-Ber X1,,Xna=(a1,,an),有:对于一切 t>0

    Pr(i=1naiXit)exp(t22a2)

以及更泛用的 Hoe-Ine:

  • 对于每个 Xi 都被 [ai,bi] bound 的随机变量,则

    Pr(i=1nXiEXit)exp(2t2(biai)2)

posted @   Troverld  阅读(67)  评论(1编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?
点击右上角即可分享
微信分享提示