浅论殖民者对父系社会在智利地区发展的影响
似了喵。整理这 b 玩意屁用没有捏。
I.高维几何
省流:
- 体积集中于 shell。
- 体积集中于 equator。
- Gau-Ann-Thm: 高维 Gaussian 分布集中于 √d 附近。
- Random Projection Theorem: 随机取向量并投影,大概率保距离。
(1−ϵ) 的部分,体积为 (1−ϵ)d≤e−ϵd。因此,至少 1−e−ϵd 的体积集中于 ϵ 的 shell 上。特别地,r-球的绝大多数体积集中于 rd-shell 中。
积分可得,V(d)=A(d)d。事实上,A(d)=2πd/2Γ(d/2),V(d)=2πd/2dΓ(d/2)。特别地,Γ(1)=1,Γ(1/2)=√π,Γ(n+1)=nΓ(n)。
在单位球中,1−2ce−c2/2 的球体体积满足 |x1|≤c√d−1,即集中于赤道。证明靠嗯积。
单位球上随机抽 \bf x_1,\dots,\bf x_n,以 1−O(1/n) 的概率均成立:
- |\bf x_i|\geq1-\dfrac{2\ln n}d;
- |\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}。
证明使用 Union Bound。
Spherical Gaussian: p(\bf x)=\dfrac1{(2\pi)^{d/2}}\exp(-\dfrac12\sum x_i^2)。【这个是 N(\bf 0,I_d) 的 PDF】
从球面随机 gen 点的方式,是用 sph-gau 随机 gen 点然后将其 normalize;从球内随机 gen 点的方式,是生成球面解然后将其抹开到整个球内。
Gau-Ann-Thm.: 当 X\sim N(\bf 0,I_d) 时,对于一切 β≤√d,至多 3e−cβ2 的概率不落在 √d±β 的 annulus 里面。
证明:满足存在 k>0 使得 Pr(|X|>t)≤2exp(−t2/k2) 的变量被称作 Sub-Gau 的变量。Sub-Gau 的变量可以定义 Sub-Gau-Norm ‖⋅‖ψ2 为 E(X2/t2)≤2 的 t 下界;则对于独立的 Sub-Gau 们,存在 Hoeffding 的扩展
Pr(|∑Xi|≥t)≤2exp(−ct2∑‖Xi‖2ψ2)Sub-Exp 的变量满足 Pr(|X|≥t)≤2exp(−t/K)。Sub-Exp-Norm ‖⋅‖ψ1 为 E(x/t)≤2 的 t 下界。
对于期望均为零、独立的 Sub-Exp 的变量们,有 Bernstein 定理
Pr(|∑Xi|≥t)≤2exp(−cmin{t2∑‖Xi‖2ψ1,tmax‖Xi‖ψ1})Gau 是 Sub-Gau 的,因此 Gau 方是 Sub-Exp 的。若 X∼(0,σ2),则 ‖X2‖ψ1=σ2。
对 Pr(|∑X2i|−∑E(X2i)) 应用 Bernstein 即可。
同时有扩展 Hoeffding,适用于独立、零期望的随机变量们。
还是列一下几个朴素的不等式罢。
Markov:对于 非负 的 x ,Pr(x≥c)≤E(x)c。其也可以被应用于变式:对于 r ,Pr(x≥c)≤E(xr)cr。
Chebyshev:Pr(|X−E(X)|>cσ(X))<1c2。证明对 (X−E)2 用 Mar。
Chenoff: Pr(X≥(1+δ)μ)≤(eδ(1+δ)1+δ)μ。Pr(X≤(1−δ)μ)≤(e−δ(1−δ)1−δ)μ。同时有推论:Pr(X≥(1+δ)μ)≤e−1/3δ2μ,Pr(X≤(1−δ)μ)≤e−1/2δ2μ。X 是若干次掷硬币(Bernoulli)组成。
Hoeffding 对于 Xi∈(a,b),有 Pr(|∑Xi−E(Xi)|≥t)≤2exp(−2t2n(b−a)2)。在其不同分布时,也有 Pr(|∑Xi−E(Xi)|≥t)≤2exp(−2t2∑(bi−ai)2)。事实上,如果把内层的绝对值撤掉,那么右侧外部的 2 亦可撤掉。
大数定律:如果 xi 均是 X 的取样,则 Pr(|1n∑x−E(X)|≥ϵ)≤V(X)nϵ2,本质也是 Cheby。
Random Projection Theorem:
假如要将 d 阶数据压缩为 k 阶数据,则用 Spherical Gaussian 生成 k 个随机向量 \bf u_1,\dots,\bf u_k 并计算其在每个向量方向投影长度,构成一个 k 阶数据。以大概率地,这种压缩有 \|f(\bf x)\|\approx\sqrt k\|\bf x\|。具体而言,
证明:不妨令 \|\bf v\|=1,则 \bf u_i\cdot\bf v\sim N(0,1),则 \|f(\bf v)\|\sim N(\bf 0,I_k),应用 Gau-Ann-Thm 即证。应用 Union Bound 可以得到 JL Lemma,即当 k≥3cϵ2 以 1−32n 的概率,
Random Projection 压缩是保距离的,但是对 k 有要求,且不一定是最优压缩,这一点与 PCA 压缩不同。
分离两个 distribution。如果要分离两个 unit Gaussian(annulus 在 √d 附近的 Gaussian),Gaussian 的 center 距离至少为 Ω(d1/4polylog(n));如果要分离两个 unit ball,因为 unit Gaussian 其实和 √d-shell 差不多,而 unit ball 和 1-shell 差不多,因此分离 unit ball 需要的距离直接等比缩小为 Ω(d−1/4polylog(n)) 足矣。
II.奇异值分解
有一个 m×n 矩阵,满足 \rankA≪m,n。试图将其拆成 A=USVT=(m×r)(r×r)(n×r)T,满足:
- U,V 是正交单位 orthonormal 阵,即满足 UTU=VTV=IR,即 U,V 的列向量都是单位向量且彼此正交。
- S 是对角矩阵 diag(σ1,…,σr),其中 σ 被称作 singular value。
- U 中列向量被称作 left singular vectors,V 中被称作 right singular vectors。
对于对称阵 M=MT,其必然存在 orthonormal 的特征向量 \bf u_1,\dots,\bf u_n,于是有 MU=UΛ。orthonormal 矩阵有着 U−1=UT 的优秀性质,所以 M=UΛUT。
对于对称半正定的 M,有 Λ 中的所有 λ≥0,于是令 X=U√Λ,则 M=XXT。
进一步,对于二次型 f_M(\bf y)=\bf y^TM\bf y,有 f_M(\bf y)=\|X^T\bf y\|^2。
假设 A=USVT,则 ATA=VS2VT,AAT=US2UT。于是,一种可行的想法是,令 V 成为 ATA 的特征向量集合,U 成为 AAT 的特征向量集合,此时如果 ATA 和 AAT 具有相同的特征值分布,则这构成 A 的 SVD。
若 \bf v 是 ATA 的特征向量,即 A^TA\bf v=\lambda\bf v,则 AA^T(A\bf v)=A(A^TA\bf v)=A\lambda\bf v=\lambda(A\bf v),于是 A\bf v 是 AAT 的特征向量。
有 \|A\bf v\|^2=\bf v^TA^TA\bf v=\lambda\|\bf v\|^2。因此取一组 orthonormal 的 \bf v 后,通过令 S=√Λ, U=AVS−1 即可得到 orthonormal 的 \bf u 集合。
通过此法定义的 SVD,有:U=(m×n),S=(n×n),V=(n×n)。
这个东西没有对称性。(在 m≥n 的场合)可以将 U,S 人工拉长为 U=(m×m),S=(m×n) 来保证对称性,此时的分解称作 full SVD。在 m<n 的场合应该反过来选择从 U 生成 V 来得到 full SVD。
注意 full SVD 的 A=USVT 其实展开来是 A=\sum\limits_{i=1}^{\min(n,m)}\sigma_i\bf u_i\bf v_i 的式子;实对称矩阵 AAT 的非零特征值数目等于其秩,而 \rank(AAT)=\rank(A),因此可以剪裁掉 S 中那些零特征值式对应的部分,得到 A=(m×r)×(r×r)×(n×r)T 的 reduce SVD。
full SVD 有着如下效果:
- U 的前 r 列是 A 列空间的单位正交基。
- U 的后 m−r 列是 A 零空间的单位正交基。
- V 的前 r 列是 AT 列空间的单位正交基。
- V 的后 n−r 列是 AT 零空间的单位正交基。
SVD 的应用:
定义矩阵的 Frobenious Norm ‖M‖F=√∑i,jm2i,j=√\trMTM。将 M 奇异值分解后,会发现 ‖M‖2F 其实就是 ATA 奇异值平方和,也即 ATA、AAT 共有的一组特征值之和,也就是 trace。
令 Ah 为所有 rank 为 h 的矩阵中,与 A 差的 Frobenious Norm 最小的那个矩阵。
声称,将 S 的元素重排使得奇异值从左上到右下递减后,Ah 可以由 U 的前 h 列、S 的左上角 h×h、V 的前 h 列的转置三者相乘得到。【Eckart-Young Theorem】
事实上,Ah 不仅是差 F-norm 最小的矩阵,同时也是 2-norm 最小的矩阵,其中 \|A\|_2=\max\limits_{\|\bf x\|=1}\|A\bf x\| 即最大拉伸比例。通过将 \bf x 在 \bf v 上分解,易知 2-norm 即为 σ1。
记 σi(X) 为矩阵 X 的第 i 大奇异值。则:
对于一切 rank 为 h 的矩阵 M,声称 σi+h(A)≤σi(M−A)。
若 M 的秩为 h,则其零空间的秩为 n−h。于是 \text{Null}(M)\cap\text{Span}\{\bf v_1,\dots,\bf v_{h+1}\} 必然不可能仅含零向量。取其中的非零向量 ω,则
‖Aω‖=‖(A−M)ω‖≤σ1(A−M)‖ω‖\|A\omega\|^2=\sum_{i=1}^{h+1}\sigma_i^2(\bf v_i^T\omega)^2
\\\geq\sigma_{h+1}^2\sum_{i=1}^{h+1}(\bf v_i^T\omega)^2
\\=\sigma_{h+1}^2(A)\|\omega\|^2于是 σ1(A−M)≥σh+1(A)。归纳可得对于一切的 i 与 h+i 均成立。
然后知 Ah 取到下界,因为 A−M 的奇异值集合即为 h+1 以后的奇异值集合,而取 M 为 Ah 时恰取到该集合。
PCA 问题:对于 Rm 中 \bf x_1,\dots,\bf x_n 共 n 个点,找到位于 k 维子空间的 \tilde{\bf x}_1,\dots,\tilde{\bf x}_n,最小化 \sum\|\bf x_i-\tilde{\bf x}_i\|^2。
第一步是把所有 \bf x_i 减去平均值,使得其靠近中心。
然后构建如下的算法:
- 找到单位球上 \bf v_1,最大化 \bf v_1 与所有 \bf x_i 的点积的平方和。
- 找到单位球上 \bf v_2,垂直于 \bf v_1,最大化点积平方和。
- ……
- 每一步,在单位球上新找一个向量,垂直于之前所有向量,并最大化点积平方和。
- 如果进行到某一步增量为零,则当前子空间已经覆盖全体 \bf x_i,算法终止。
该算法与 SVD 等价。
事实上,算 PCA 的方法,即为取出 \bf v_1,\dots,\bf v_k=V_k 然后计算 AVk 即得那些与 A 中点距离平方和最小的子空间。
Power Method 提供求 \bf v 的方法。已知 B=A^TA=\sum\sigma_i^2\bf v_i\bf v_i^T,则当 \bf x=\sum c_i\bf v_i 时, B^k\bf x=\sum\sigma_i^{2k}c_i\bf v_i。当 eigen gap σ1−σ2 足够大时,可以近似视作 \sigma_1^{2k}c_i\bf v_i。
Theorem 3.11: 若 |\bf x\cdot\bf v_1|\geq\delta>0,则令 V 为 A 的 right singular vector 中那些对应奇异值大于 (1−ϵ)δ 的张成的子空间,则令 \bf w 为 k=ln(1/ϵ)2ϵ 次【事实上,k 取最大的满足 σ1…σk≥(1−ϵ)σ1 的 k】迭代后的单位向量,即
则 \bf w 垂直于 V 的分量模长不超过 ϵ。
或者,最准确的表述为,V 为那些大于 (1−ϵ1)σ1 右奇异向量张成线性空间,则 k 取到 O(ln(1/ϵ2δ)ϵ1) 即可满足垂直分量模长不超过 ϵ2。
community detection:同一个 community 的以 p 的概率连边,非同一个 community 的以 q 概率连边,已知 p>q。
已知 p,q 时,划分 community 的方法,为:
- 已知 \rankE(A)=2,且 E(A) 的 \sigma_1=\dfrac{p+q}2n,\bf v_1=[1,\dots,1];\sigma_2=\dfrac{p-q}2n,\bf v_2=[1,\dots,1,-1,\dots,-1]。那么,算 \bf v_2 即可 detect。事实上,3-community 算 \bf v_3,……。错误数目为 #mistakes≤1μ2,μ=min(q,p−q),是与 n 无关的值。
放两个意义不明的结论
Thm.: [Davis-Khan] let A=\sum\lambda_i\bf u_i\bf u_i^T,\hat A=\sum\hat\lambda_i\hat{\bf u}_i\hat{\bf u}_i^T with A,ˆA real-symmetric, λ1≥λ2≥….
If λi−λi−1≥δ,λi+1−λi≥δ, then \min_{\epsilon\in[-1,1]}\sin(\bf u_i\cdot\hat{\bf u}_i)\leq\dfrac{\|\hat A-A\|_{op}}6.
Where, Frobinious norm has ‖A‖F=∑σ2i, and ‖A‖op=maxσi.
This is to say, close matrices have close eigen vectors.
Another Theorem shows the bound of ‖⋅‖op.
With high probability, ‖A−E(A)‖op=O(√n), hence \|\bf v_2(A)-\bf v_2(E(A))\|\leq\dfrac{\sqrt n}{n\mu}.
III.Markov 链
一个有限 Markov 链是一组概率分布 X1,X2,…,满足 P(Xi+1=y∣P1=x1,…,Pi=xi)=P(Xi+1=y∣Pi=xi)=Px,y。有限并非 Markov 链的长度有限,而是状态集合 Ω 是有限集。
概率分布向量往往被认为是行向量。P 的每一行都是一个概率分布向量。
P 满足好性质:
- \lambda_1=1,\bf v_1=\bf1。
- 若 λ 是 P 特征值,则 λk 是 Pk 特征值;因为一切的 Pk 均为 Markov 矩阵,而显然必有 |λ|≤∑Pi,j=n,所以须有 |λ|≤1。
- 在 P 是连通无向图随机游走矩阵时,因为无向图随机游走矩阵是 D−1A,其相似于 D−0.5AD−0.5,后者因为 A 是对称矩阵所以亦是对称矩阵,对称矩阵有实特征值,所以连通无向图随机游走矩阵有 1=λ1≥⋯≥λn≥−1;注意其不一定正定。
取 \bf a(t)=\dfrac1t\sum\bf x(t),则由 Cauchy 引理 \bf a(t) 必然收敛,且易知 \bf a 满足 \bf aP=\bf a。
不易知。
首先介绍一种证明 unique 的方法。
考虑 n×(n+1) 矩阵 [P-I,\bf 1]。求其零空间:易知 [1,1,…,1,0] 是零空间中元素。假设 [x1,…,xn,α] 亦是零空间中元素。
若 x1,…,xn 全同,则 [0,…,0,α] 是零空间中元素,推出 α=0,不合法。否则不全同,考虑其中 argmax 集合。则 argmax 中必然有一个会被非 max 的元素指向(否则就不 irreducible 即强连通,或不全同了)而易验证此时意味着其不可能是零空间元素。
然后知 [P-I,\bf1] 的零空间维数为 1,秩为 n,于是 P−I 秩至少为 n−1,π 存在则必唯一。
同样的方法可以用于证明,\bf a 收敛至合法的 π。取 \bf b(t)=\bf a(t)(P-I),则 \bf b(t)=\dfrac1t(\bf x(t)-\bf x(0))\to\bf 0。取 B 为 [P-I,\bf 1] 删去第一列得到的矩阵,则其必然可逆。取 \bf c(t) 为 \bf b(t) 删去第一元素得到的向量,则 \bf a(t)B=[\bf c(t),1],有
\pi=\lim_{t\to\infty}\bf a(t)=\lim_{t\to\infty}[\bf c(t),1]B^{-1}=[0,\dots,0,1]B^{-1}易知其所有项都非负,于是 π 存在且唯一。
但是问题是,是否存在 πP=π 的 stationary distribution?答曰:必然存在,且 connected 时唯一。
存在性因为 P 映射是凸集到自身的连续映射,由不动点定理必然存在不动点。
唯一性,则须证明 P−I 的行零空间维数恰为 1。
假设 hP=P,则令 h(m) 是 argmax 且等于 M,则走一步得到所有能到 m 的全得是 M,最终得到 m 所在连通块必须全等于 M,而因为 connected 所以连通块唯一。
connected 指对于一切 x,y,x 可以在有限步内到 y。
通过 ˆP(x,y)=π(y)P(y,x)π(x) 可以定义一个 Markov Chain 的 reverse。如果 MC 的 reverse 等于自身,则称这个 MC 是 (time) reversble 的。
aperiodic,当且仅当所有环长 gcd 为 1。periodic 的场合,\bf p(t) 不一定收敛。
假如发现 π(x)P(x,y)=π(y)P(x,y),则这同时推出 P 是 reversible 和 π 是 stationary distribution。这可以被用于构造性地求 sta-dis。
MCMC 是用于解决这样的问题,对于某个 Ω、Ω 上函数 f、Ω 上的一个概率分布 \bf p,求出 E(f)=\sum\limits_{x\in\Omega}f(x)\bf p(x);若 Ω 过大(例如,Ω=[0,n−1]d),则枚举 Ω 中所有东西是高复杂度的。此时,可以构造 MC P 使得 P 的 sta-dis 恰为 \bf p,这样之后因为线性性,所以可以取任一初态 \bf x,然后用 \bf x 在 MC 上跑并求 \bf a=\dfrac1t\sum\bf x 然后用 f(\bf a) 拟合 E(f)。
现在问题是如何构建这样的 P。显然,构建 P 的方法并不唯一,且 P 总是要求 f(\bf xP^t) 是好算的。有两种可行的 P 构建法:
- Metropolis-Hasting 方法:其任取一张图 G,令 r 为其上最大度数,然后 pi,j=1rmin(1,pjpi),pi,i=1−∑j≠ipi,j。此时,pipi,j=1rmin(pi,pj)=pjpj,i。选择合适的 G 可以让转移简便。例如,当 Ω=[0,n−1]d 即可令 G 上的边为编辑距离恰为 1 的那些点。例如,算最大割,则状态数是 {0,1}n,每次调整随机扔一个到另一侧,即为模拟退火。
- Gibbs' Sampling: 假设状态空间是 {0,…,n−1}d 的子集,则两个编辑距离恰差 1 的 x1,…,xd 与 y1,…,yd 满足 P(x,y)=\dfrac1d\dfrac{\bf p(y)}{\sum\limits_{z与x恰和y在同一位上不同}\bf p(z)}。也即,x,y 在某一位上不同,则所有这一位上不同的 z 共同做分母,则每一维上所有东西的和为 1d,所有和恰为 1。
两个 distribution 的 Total Variation Distance
易知 dTV(μ,ν)=12∑|μ(x)−ν(x)|。
另一种结果为,考虑 J 为一切 μ,ν 的 joint distribution(在 Ω 有限的时候,J 可以记作一个矩阵,矩阵的行和与列和由 μ,ν 确定),则
这种分析被用在 Coupling 的场合。
令 Pt(X,⋅) 为自初态 X 走 t 步的 distribution,即 XPT。令 Pt(x,⋅) 为自 x 单点出发的 distribution。定义 d(t)=maxx∈Ω|Pt(x,⋅)−π|TV,ϵ-mixing time 为 满足 d(t)<ϵ 的最小 t。而,另一种定义的 tavg 则是对于一切初态 \bf x(0)(注意,这里的初态不一定是单点分布),要求 |\bf a(t)-\pi|_{TV}<\epsilon。tavg 与 tmix 在 aperiodic 的场合类似:此时必有 tmix<tavg。
有一个性质是,不同的 tmix(ϵ) 之间,满足给定一个 tmix(ϵ0) 则可以用于 bound 所有的 tmix(ϵ)。这是因为,定义 ˉd(t)=maxx,y∈Ω|Pt(x,⋅)−Pt(y,⋅)|,则易知 d(t)≤ˉd(t)≤2d(t),且 ˉd(t) 满足 ˉd(s+t)≤ˉd(s)ˉd(t) 的好性质,因为
\\|P^{s+t}(x,\cdot)-P^{s+t}(y,\cdot)|_{TV}
\\=\mathop E\limits_{X_s}|P^t(X_s,\cdot)-P^t(Y_s,\cdot)|_{TV}
\\\leq\Pr(X_s\neq Y_s)\bar d(t)
\\\leq\bar d(s)\bar d(t)
这是 mixing time 最朴素的定义。
\bf xP^t 其实是在作 Power Method。可以定义 u,v 的内积 ⟨u,v⟩=∑π(i)u(i)v(i),或者是 ⟨uD0.5,vD0.5⟩,其中 D0.5 是一个线性变换,为了让 P 所有的特征向量 orthonormal。
需要 ln(1/cϵ)δ 步才能让 Pt(x,⋅) 垂直于 π 的部分至多为 ϵ,其中 δ 是 eigengap;注意因为 P 并非正定,所以 δ 其实是 λ1−max(|λ2|,|λn|)。
有 tmix(ϵ)=O(ln(1/ϵπ∗)δ),其中 π∗ 是 sta-dis π 中的最小值。此处可以看到为何 tmix 的初态只能是单点态,而 tavg 可以是任一态:单点态是为了 π∗。
若无向图无边权,则 π∗ 至少为 1/m,而 m=O(n2),因此分子必为 lnn,是好的。
若 λn=−1,此时 tmix 不一定存在;分析可得,仅在二分图上出现 λn=−1,而二分图显然不可能存在 tmix。事实上,λn 衡量一张图有多像二分图。
若 λ2=1,则图并非强连通。
定义 normalized conductance Φ(S)=∑x∈S,y∈ˉSπ(x)Px,ymin(π(S),π(ˉS)),Φ 则是全体非空非满的 Φ(S) 的 min。有 tavg(ϵ)=O(ln(1/π∗)Φ2ϵ3)。conductance 分析仅适用于无向图的场合:而前述的谱分解分析适用于一切场合。
Cheeger 不等式连结了 Φ 和 δ:它指出 δ2≤Φ≤√2δ。但是,注意此处的 δ=λ1−λ2,与谱分解中的 δ 不完全相同。当 P 正定时,两个 δ 相等;而强制令游走时以一半概率留在原地后,得到的新 MC 与原 MC 有着相同的 sta-dis,且由 Gerschgorin’s Theorem,新 MC 必然正定。
1-D Lattice, Φ=Ω(1/n)。2-D,Φ=Ω(1/n)。k-D,Φ=Ω(1/kn),此时 tavg=O(d3n2lnn)。
无权图总是有 Φ=Ω(1/m) 的近似,因此 tavg=O(n4lnn),但是这个界非常松。
Coupling 是分布列 X1,… 与 Y1,…,初态均为单点,且满足若它们在某处游走到同一点,则之后所有时刻均共同游走。注意,coupling 仅仅限制 Xi+1∼P(xi,⋅),Yi+1∼P(yi,⋅),没有限制 Xi+1,Yi+1 的 joint distribution。因此接下来会适当地选取合适的 J 处理。
令 dx,y(t)=|Pt(x,⋅)−Pt(y,⋅)|,则 ˉd(t)=maxx,y∈Ωdx,y(t)。且,d(t)≤dx,y(t)≤2d(t)。
令 τ 为初次相遇时刻。则当 X0=x,Y0=y 时,
后者由 Markov,≤E(Xt,Yt)∼J(τ)t。于是,可以取出任一一个 J,则 tmix≤maxx,y∈ΩE(Xt,Yt)∼J(τ)。
这可以被用于更精细地 bound 一些界。例如,1-D Lattice 的场合,令 J 的 distribution 为,12 的概率 x 动 y 不动,12 的概率 y 动 x 不动,则 x,y 各自均分别满足随机游走的朴素规则,然后算二者初遇期望是容易的。此处可以得到 n2 的更优界,比使用 conductance 的 n2logn 更牛。
hypercube 随机游走同理:以 12 的概率停留,12n 的概率翻转某一位,可以等价于随机一位,然后以 12 的概率将 x,y 这一位上同赋为 0 或 1。可知 tmix=O(nlogn)。
IV.杂项
Hoeffding 的证明:
由 Markov,Pr(Z>a)=Pr(esZ>esa)≤e−saE(esz)。则 Pr(X−μ>ϵ)≤e−sϵE(es(X−μ))=e−sϵ∏E(es(xi−E(xi)))
Lemma: 若 E(V)=0 且 a≤V≤b,则 E(esv)≤es2(b−a)2/8,于是令 s=4ϵ∑(bi−ai)2 可知 Pr(X−μ>ϵ)≤exp(−2ϵ2∑(bi−ai)2),也即 Hoeffding。
现在问题是 Lemma 如何证。首先由 exp 的凸性知
然后令 u=s(b−a),p=bb−a,定义 ψ(u)=ln(pesa+(1−p)esb)=(p−1)u+ln(p+(1−p)eu),对其在 0 处 Lagrange 余项 Taylor 展开得到 ψ(u)=ψ(0)+ψ′(0)u+12ψ″(ξ)u2,前两者为 0,于是试证明 ψ″(ξ)≤1/4。列二阶导然后处理即可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!