I. High-Dimensional Space
大数定律:样本增多时,平均值趋向于期望。具体而言,
Pr(∣∣∣1n∑xi−E(x)∣∣∣≥ϵ)≤V(x)nϵ2
可以被 Chebyshev 证明。
d 维空间的固定半径球,随着维数增加体积趋于 0。单位球的场合,有 1−e−ϵd 的体积集中在 S∖(1−ϵ)S 的 annulus 里面,也即绝大部分体积集中在 O(1/d) 的球壳中。
嗯积可以得到,A(d)=2πd/2Γ(d/2),V(d)=2πd/2dΓ(d/2).
质量集中于 equator。1−2ce−c2/2 的体积集中于 |x1|≤c√d−1 的赤道中。
推论:从单位球中随机取 n 个点,以 1−O(1/n) 的概率,对于所有点有:
- \|\bf x_i\|\geq1-\dfrac{2\ln n}d;
- |\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}。
如何生成球内的随机点?使用 Spherical Gaussian,即在每一维上都是标准 Gaussian。其在每个方向的分布均相同,于是可以将结果 normalize,得到在球面上的随机点。球面随机点乘以一个关于半径的随机函数得到球体的随机点;该关于半径的随机函数与每个半径的球面面积成正比,也即 PDF 与 rd−1 成正比。
Gaussian Annulus Theorem:对于所有方向都以 unit variance 分布的 Spherical Gaussian,对于一切 β≤√d 以 1−3e−cβ2 的概率 \sqrt d-\beta\leq\|\bf x\|\leq\sqrt d+\beta。
Random Projection Theorem 是一种大概率保距离的压缩数据的方式。假如要将 d 阶数据压缩为 k 阶数据,则用 Spherical Gaussian 生成 k 个随机向量并计算其在每个向量方向投影长度,构成一个 k 阶数据。以大概率地,这种压缩有 \|f(\bf x)\|\approx\sqrt k\|\bf x\|。具体而言,
\Pr(\big|\|f(\bf v)\|-\sqrt k\|\bf v\|\big|\geq\epsilon\sqrt k\|\bf v\|)\leq3e^{-ck\epsilon^2}
家人们,还是看看远处的 [Vershynin] HDP 吧。
首先,我们有一个朴素的 Hoeffding Inequality(虽然形式可能和普通的 Hoeffding 有些区别):
-
定义 Symmetric Bernoulli 是 Pr(X=−1)=Pr(X=1)=12 的分布。
-
对于独立随机的 Sym-Ber X1,…,Xn 和 a=(a1,…,an),有:对于一切 t>0,
Pr(n∑i=1aiXi≥t)≤exp(−t22∥a∥2)
以及更泛用的 Hoe-Ine:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?