Processing math: 100%

浅论殖民者对父系社会在智利地区发展的影响

似了喵。整理这 b 玩意屁用没有捏。

I.高维几何

省流:

  • 体积集中于 shell。
  • 体积集中于 equator。
  • Gau-Ann-Thm: 高维 Gaussian 分布集中于 d 附近。
  • Random Projection Theorem: 随机取向量并投影,大概率保距离。

(1ϵ) 的部分,体积为 (1ϵ)deϵd。因此,至少 1eϵd 的体积集中于 ϵ 的 shell 上。特别地,r-球的绝大多数体积集中于 rd-shell 中。

积分可得,V(d)=A(d)d。事实上,A(d)=2πd/2Γ(d/2),V(d)=2πd/2dΓ(d/2)。特别地,Γ(1)=1,Γ(1/2)=π,Γ(n+1)=nΓ(n)

在单位球中,12cec2/2 的球体体积满足 |x1|cd1,即集中于赤道。证明靠嗯积。

单位球上随机抽 \bf x_1,\dots,\bf x_n,以 1O(1/n) 的概率均成立:

  • |\bf x_i|\geq1-\dfrac{2\ln n}d
  • |\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}

证明使用 Union Bound。

Spherical Gaussian: p(\bf x)=\dfrac1{(2\pi)^{d/2}}\exp(-\dfrac12\sum x_i^2)。【这个是 N(\bf 0,I_d) 的 PDF】

从球面随机 gen 点的方式,是用 sph-gau 随机 gen 点然后将其 normalize;从球内随机 gen 点的方式,是生成球面解然后将其抹开到整个球内。

Gau-Ann-Thm.: 当 X\sim N(\bf 0,I_d) 时,对于一切 βd,至多 3ecβ2 的概率不落在 d±β 的 annulus 里面。

证明:满足存在 k>0 使得 Pr(|X|>t)2exp(t2/k2) 的变量被称作 Sub-Gau 的变量。Sub-Gau 的变量可以定义 Sub-Gau-Norm ψ2E(X2/t2)2t 下界;则对于独立的 Sub-Gau 们,存在 Hoeffding 的扩展

Pr(|Xi|t)2exp(ct2Xi2ψ2)

Sub-Exp 的变量满足 Pr(|X|t)2exp(t/K)。Sub-Exp-Norm ψ1E(x/t)2t 下界。

对于期望均为零、独立的 Sub-Exp 的变量们,有 Bernstein 定理

Pr(|Xi|t)2exp(cmin{t2Xi2ψ1,tmaxXiψ1})

Gau 是 Sub-Gau 的,因此 Gau 方是 Sub-Exp 的。若 X(0,σ2),则 X2ψ1=σ2

Pr(|X2i|E(X2i)) 应用 Bernstein 即可。

同时有扩展 Hoeffding,适用于独立、零期望的随机变量们。

Pr(|Xi|t)2exp(ct2Xi2ψ2)

还是列一下几个朴素的不等式罢。

Markov:对于 非负xPr(xc)E(x)c。其也可以被应用于变式:对于 rPr(xc)E(xr)cr

Chebyshev:Pr(|XE(X)|>cσ(X))<1c2。证明对 (XE)2 用 Mar。

Chenoff: Pr(X(1+δ)μ)(eδ(1+δ)1+δ)μPr(X(1δ)μ)(eδ(1δ)1δ)μ。同时有推论:Pr(X(1+δ)μ)e1/3δ2μPr(X(1δ)μ)e1/2δ2μX 是若干次掷硬币(Bernoulli)组成。

Hoeffding 对于 Xi(a,b),有 Pr(|XiE(Xi)|t)2exp(2t2n(ba)2)。在其不同分布时,也有 Pr(|XiE(Xi)|t)2exp(2t2(biai)2)。事实上,如果把内层的绝对值撤掉,那么右侧外部的 2 亦可撤掉。

大数定律:如果 xi 均是 X 的取样,则 Pr(|1nxE(X)|ϵ)V(X)nϵ2,本质也是 Cheby。

Random Projection Theorem:

假如要将 d 阶数据压缩为 k 阶数据,则用 Spherical Gaussian 生成 k 个随机向量 \bf u_1,\dots,\bf u_k 并计算其在每个向量方向投影长度,构成一个 k 阶数据。以大概率地,这种压缩有 \|f(\bf x)\|\approx\sqrt k\|\bf x\|。具体而言,

\Pr(\big|\|f(\bf v)\|-\sqrt k\|\bf v\|\big|\geq\epsilon\sqrt k\|\bf v\|)\leq3e^{-ck\epsilon^2}

证明:不妨令 \|\bf v\|=1,则 \bf u_i\cdot\bf v\sim N(0,1),则 \|f(\bf v)\|\sim N(\bf 0,I_k),应用 Gau-Ann-Thm 即证。应用 Union Bound 可以得到 JL Lemma,即当 k3cϵ2132n 的概率,

(1-\epsilon)\sqrt k\|\bf v_i-\bf v_j\|\leq\|f(\bf v_i)-f(\bf v_j)\|\leq(1+\epsilon)\sqrt k\|\bf v_i-\bf v_j\|

Random Projection 压缩是保距离的,但是对 k 有要求,且不一定是最优压缩,这一点与 PCA 压缩不同。

分离两个 distribution。如果要分离两个 unit Gaussian(annulus 在 d 附近的 Gaussian),Gaussian 的 center 距离至少为 Ω(d1/4polylog(n));如果要分离两个 unit ball,因为 unit Gaussian 其实和 d-shell 差不多,而 unit ball 和 1-shell 差不多,因此分离 unit ball 需要的距离直接等比缩小为 Ω(d1/4polylog(n)) 足矣。

II.奇异值分解

有一个 m×n 矩阵,满足 \rankAm,n。试图将其拆成 A=USVT=(m×r)(r×r)(n×r)T,满足:

  • U,V 是正交单位 orthonormal 阵,即满足 UTU=VTV=IR,即 U,V 的列向量都是单位向量且彼此正交。
  • S 是对角矩阵 diag(σ1,,σr),其中 σ 被称作 singular value。
  • U 中列向量被称作 left singular vectors,V 中被称作 right singular vectors。

对于对称阵 M=MT,其必然存在 orthonormal 的特征向量 \bf u_1,\dots,\bf u_n,于是有 MU=UΛ。orthonormal 矩阵有着 U1=UT 的优秀性质,所以 M=UΛUT

对于对称半正定的 M,有 Λ 中的所有 λ0,于是令 X=UΛ,则 M=XXT

进一步,对于二次型 f_M(\bf y)=\bf y^TM\bf y,有 f_M(\bf y)=\|X^T\bf y\|^2

假设 A=USVT,则 ATA=VS2VT,AAT=US2UT。于是,一种可行的想法是,令 V 成为 ATA 的特征向量集合,U 成为 AAT 的特征向量集合,此时如果 ATAAAT 具有相同的特征值分布,则这构成 A 的 SVD。

\bf vATA 的特征向量,即 A^TA\bf v=\lambda\bf v,则 AA^T(A\bf v)=A(A^TA\bf v)=A\lambda\bf v=\lambda(A\bf v),于是 A\bf vAAT 的特征向量。

\|A\bf v\|^2=\bf v^TA^TA\bf v=\lambda\|\bf v\|^2。因此取一组 orthonormal 的 \bf v 后,通过令 S=ΛU=AVS1 即可得到 orthonormal 的 \bf u 集合。

通过此法定义的 SVD,有:U=(m×n),S=(n×n),V=(n×n)

这个东西没有对称性。(在 mn 的场合)可以将 U,S 人工拉长为 U=(m×m),S=(m×n) 来保证对称性,此时的分解称作 full SVD。在 m<n 的场合应该反过来选择从 U 生成 V 来得到 full SVD。

注意 full SVD 的 A=USVT 其实展开来是 A=\sum\limits_{i=1}^{\min(n,m)}\sigma_i\bf u_i\bf v_i 的式子;实对称矩阵 AAT 的非零特征值数目等于其秩,而 \rank(AAT)=\rank(A),因此可以剪裁掉 S 中那些零特征值式对应的部分,得到 A=(m×r)×(r×r)×(n×r)T 的 reduce SVD。

full SVD 有着如下效果:

  • U 的前 r 列是 A 列空间的单位正交基。
  • U 的后 mr 列是 A 零空间的单位正交基。
  • V 的前 r 列是 AT 列空间的单位正交基。
  • V 的后 nr 列是 AT 零空间的单位正交基。

SVD 的应用:

定义矩阵的 Frobenious Norm MF=i,jm2i,j=\trMTM。将 M 奇异值分解后,会发现 M2F 其实就是 ATA 奇异值平方和,也即 ATAAAT 共有的一组特征值之和,也就是 trace。

Ah 为所有 rank 为 h 的矩阵中,与 A 差的 Frobenious Norm 最小的那个矩阵。

声称,将 S 的元素重排使得奇异值从左上到右下递减后,Ah 可以由 U 的前 h 列、S 的左上角 h×hV 的前 h 列的转置三者相乘得到。【Eckart-Young Theorem】

事实上,Ah 不仅是差 F-norm 最小的矩阵,同时也是 2-norm 最小的矩阵,其中 \|A\|_2=\max\limits_{\|\bf x\|=1}\|A\bf x\| 即最大拉伸比例。通过将 \bf x\bf v 上分解,易知 2-norm 即为 σ1

σi(X) 为矩阵 X 的第 i 大奇异值。则:

对于一切 rank 为 h 的矩阵 M,声称 σi+h(A)σi(MA)

M 的秩为 h,则其零空间的秩为 nh。于是 \text{Null}(M)\cap\text{Span}\{\bf v_1,\dots,\bf v_{h+1}\} 必然不可能仅含零向量。取其中的非零向量 ω,则

Aω=(AM)ωσ1(AM)ω

\|A\omega\|^2=\sum_{i=1}^{h+1}\sigma_i^2(\bf v_i^T\omega)^2
\\\geq\sigma_{h+1}^2\sum_{i=1}^{h+1}(\bf v_i^T\omega)^2
\\=\sigma_{h+1}^2(A)\|\omega\|^2

于是 σ1(AM)σh+1(A)。归纳可得对于一切的 ih+i 均成立。

然后知 Ah 取到下界,因为 AM 的奇异值集合即为 h+1 以后的奇异值集合,而取 MAh 时恰取到该集合。

PCA 问题:对于 Rm\bf x_1,\dots,\bf x_nn 个点,找到位于 k 维子空间的 \tilde{\bf x}_1,\dots,\tilde{\bf x}_n,最小化 \sum\|\bf x_i-\tilde{\bf x}_i\|^2

第一步是把所有 \bf x_i 减去平均值,使得其靠近中心。

然后构建如下的算法:

  • 找到单位球上 \bf v_1,最大化 \bf v_1 与所有 \bf x_i 的点积的平方和。
  • 找到单位球上 \bf v_2,垂直于 \bf v_1,最大化点积平方和。
  • ……
  • 每一步,在单位球上新找一个向量,垂直于之前所有向量,并最大化点积平方和。
  • 如果进行到某一步增量为零,则当前子空间已经覆盖全体 \bf x_i,算法终止。

该算法与 SVD 等价。

事实上,算 PCA 的方法,即为取出 \bf v_1,\dots,\bf v_k=V_k 然后计算 AVk 即得那些与 A 中点距离平方和最小的子空间。


Power Method 提供求 \bf v 的方法。已知 B=A^TA=\sum\sigma_i^2\bf v_i\bf v_i^T,则当 \bf x=\sum c_i\bf v_i 时, B^k\bf x=\sum\sigma_i^{2k}c_i\bf v_i。当 eigen gap σ1σ2 足够大时,可以近似视作 \sigma_1^{2k}c_i\bf v_i

Theorem 3.11: 若 |\bf x\cdot\bf v_1|\geq\delta>0,则令 VA 的 right singular vector 中那些对应奇异值大于 (1ϵ)δ 的张成的子空间,则令 \bf wk=ln(1/ϵ)2ϵ 次【事实上,k 取最大的满足 σ1σk(1ϵ)σ1k】迭代后的单位向量,即

\bf w=\dfrac{(A^TA)^k\bf x}{\|(A^TA)^k\bf x\|}

\bf w 垂直于 V 的分量模长不超过 ϵ

或者,最准确的表述为,V 为那些大于 (1ϵ1)σ1 右奇异向量张成线性空间,则 k 取到 O(ln(1/ϵ2δ)ϵ1) 即可满足垂直分量模长不超过 ϵ2

community detection:同一个 community 的以 p 的概率连边,非同一个 community 的以 q 概率连边,已知 p>q

已知 p,q 时,划分 community 的方法,为:

  • 已知 \rankE(A)=2,且 E(A)\sigma_1=\dfrac{p+q}2n,\bf v_1=[1,\dots,1]\sigma_2=\dfrac{p-q}2n,\bf v_2=[1,\dots,1,-1,\dots,-1]。那么,算 \bf v_2 即可 detect。事实上,3-community 算 \bf v_3,……。错误数目为 #mistakes1μ2,μ=min(q,pq),是与 n 无关的值。

放两个意义不明的结论

Thm.: [Davis-Khan] let A=\sum\lambda_i\bf u_i\bf u_i^T,\hat A=\sum\hat\lambda_i\hat{\bf u}_i\hat{\bf u}_i^T with A,ˆA real-symmetric, λ1λ2.

If λiλi1δ,λi+1λiδ, then \min_{\epsilon\in[-1,1]}\sin(\bf u_i\cdot\hat{\bf u}_i)\leq\dfrac{\|\hat A-A\|_{op}}6.

Where, Frobinious norm has AF=σ2i, and Aop=maxσi.

This is to say, close matrices have close eigen vectors.

Another Theorem shows the bound of op.

With high probability, AE(A)op=O(n), hence \|\bf v_2(A)-\bf v_2(E(A))\|\leq\dfrac{\sqrt n}{n\mu}.

III.Markov 链

一个有限 Markov 链是一组概率分布 X1,X2,,满足 P(Xi+1=yP1=x1,,Pi=xi)=P(Xi+1=yPi=xi)=Px,y。有限并非 Markov 链的长度有限,而是状态集合 Ω 是有限集。

概率分布向量往往被认为是行向量。P 的每一行都是一个概率分布向量。

P 满足好性质:

  • \lambda_1=1,\bf v_1=\bf1
  • λP 特征值,则 λkPk 特征值;因为一切的 Pk 均为 Markov 矩阵,而显然必有 |λ|Pi,j=n,所以须有 |λ|1
  • P 是连通无向图随机游走矩阵时,因为无向图随机游走矩阵是 D1A,其相似于 D0.5AD0.5,后者因为 A 是对称矩阵所以亦是对称矩阵,对称矩阵有实特征值,所以连通无向图随机游走矩阵有 1=λ1λn1;注意其不一定正定。

\bf a(t)=\dfrac1t\sum\bf x(t),则由 Cauchy 引理 \bf a(t) 必然收敛,且易知 \bf a 满足 \bf aP=\bf a

不易知。

首先介绍一种证明 unique 的方法。

考虑 n×(n+1) 矩阵 [P-I,\bf 1]。求其零空间:易知 [1,1,,1,0] 是零空间中元素。假设 [x1,,xn,α] 亦是零空间中元素。

x1,,xn 全同,则 [0,,0,α] 是零空间中元素,推出 α=0,不合法。否则不全同,考虑其中 argmax 集合。则 argmax 中必然有一个会被非 max 的元素指向(否则就不 irreducible 即强连通,或不全同了)而易验证此时意味着其不可能是零空间元素。

然后知 [P-I,\bf1] 的零空间维数为 1,秩为 n,于是 PI 秩至少为 n1π 存在则必唯一。

同样的方法可以用于证明,\bf a 收敛至合法的 π。取 \bf b(t)=\bf a(t)(P-I),则 \bf b(t)=\dfrac1t(\bf x(t)-\bf x(0))\to\bf 0。取 B[P-I,\bf 1] 删去第一列得到的矩阵,则其必然可逆。取 \bf c(t)\bf b(t) 删去第一元素得到的向量,则 \bf a(t)B=[\bf c(t),1],有

\pi=\lim_{t\to\infty}\bf a(t)=\lim_{t\to\infty}[\bf c(t),1]B^{-1}=[0,\dots,0,1]B^{-1}

易知其所有项都非负,于是 π 存在且唯一。

但是问题是,是否存在 πP=π 的 stationary distribution?答曰:必然存在,且 connected 时唯一。

存在性因为 P 映射是凸集到自身的连续映射,由不动点定理必然存在不动点。

唯一性,则须证明 PI 的行零空间维数恰为 1

假设 hP=P,则令 h(m)argmax 且等于 M,则走一步得到所有能到 m 的全得是 M,最终得到 m 所在连通块必须全等于 M,而因为 connected 所以连通块唯一。

connected 指对于一切 x,yx 可以在有限步内到 y

通过 ˆP(x,y)=π(y)P(y,x)π(x) 可以定义一个 Markov Chain 的 reverse。如果 MC 的 reverse 等于自身,则称这个 MC 是 (time) reversble 的。

aperiodic,当且仅当所有环长 gcd1。periodic 的场合,\bf p(t) 不一定收敛。

假如发现 π(x)P(x,y)=π(y)P(x,y),则这同时推出 P 是 reversible 和 π 是 stationary distribution。这可以被用于构造性地求 sta-dis。


MCMC 是用于解决这样的问题,对于某个 ΩΩ 上函数 fΩ 上的一个概率分布 \bf p,求出 E(f)=\sum\limits_{x\in\Omega}f(x)\bf p(x);若 Ω 过大(例如,Ω=[0,n1]d),则枚举 Ω 中所有东西是高复杂度的。此时,可以构造 MC P 使得 P 的 sta-dis 恰为 \bf p,这样之后因为线性性,所以可以取任一初态 \bf x,然后用 \bf x 在 MC 上跑并求 \bf a=\dfrac1t\sum\bf x 然后用 f(\bf a) 拟合 E(f)

现在问题是如何构建这样的 P。显然,构建 P 的方法并不唯一,且 P 总是要求 f(\bf xP^t) 是好算的。有两种可行的 P 构建法:

  • Metropolis-Hasting 方法:其任取一张图 G,令 r 为其上最大度数,然后 pi,j=1rmin(1,pjpi)pi,i=1jipi,j。此时,pipi,j=1rmin(pi,pj)=pjpj,i。选择合适的 G 可以让转移简便。例如,当 Ω=[0,n1]d 即可令 G 上的边为编辑距离恰为 1 的那些点。例如,算最大割,则状态数是 {0,1}n,每次调整随机扔一个到另一侧,即为模拟退火。
  • Gibbs' Sampling: 假设状态空间是 {0,,n1}d​ 的子集,则两个编辑距离恰差 1​ 的 x1,,xd​ 与 y1,,yd​ 满足 P(x,y)=\dfrac1d\dfrac{\bf p(y)}{\sum\limits_{z与x恰和y在同一位上不同}\bf p(z)}​。也即,x,y​ 在某一位上不同,则所有这一位上不同的 z​ 共同做分母,则每一维上所有东西的和为 1d​,所有和恰为 1​。

两个 distribution 的 Total Variation Distance

dTV(μ,ν)=maxAΩ|μ(A)ν(A)|

易知 dTV(μ,ν)=12|μ(x)ν(x)|

另一种结果为,考虑 J 为一切 μ,ν 的 joint distribution(在 Ω 有限的时候,J 可以记作一个矩阵,矩阵的行和与列和由 μ,ν 确定),则

dTV(μ,ν)=minJ(Pr(x,y)J[xy])

这种分析被用在 Coupling 的场合。

Pt(X,) 为自初态 Xt 步的 distribution,即 XPT。令 Pt(x,) 为自 x 单点出发的 distribution。定义 d(t)=maxxΩ|Pt(x,)π|TVϵ-mixing time 为 满足 d(t)<ϵ 的最小 t。而,另一种定义的 tavg 则是对于一切初态 \bf x(0)(注意,这里的初态不一定是单点分布),要求 |\bf a(t)-\pi|_{TV}<\epsilontavgtmix 在 aperiodic 的场合类似:此时必有 tmix<tavg

有一个性质是,不同的 tmix(ϵ) 之间,满足给定一个 tmix(ϵ0) 则可以用于 bound 所有的 tmix(ϵ)。这是因为,定义 ˉd(t)=maxx,yΩ|Pt(x,)Pt(y,)|,则易知 d(t)ˉd(t)2d(t),且 ˉd(t) 满足 ˉd(s+t)ˉd(s)ˉd(t) 的好性质,因为

P^{s+t}(x,z)=\mathop E\limits_{X_s}(P^t(X_s,z))&(X_s\sim P^s(x,\cdot))
\\|P^{s+t}(x,\cdot)-P^{s+t}(y,\cdot)|_{TV}
\\=\mathop E\limits_{X_s}|P^t(X_s,\cdot)-P^t(Y_s,\cdot)|_{TV}
\\\leq\Pr(X_s\neq Y_s)\bar d(t)
\\\leq\bar d(s)\bar d(t)

这是 mixing time 最朴素的定义。


\bf xP^t 其实是在作 Power Method。可以定义 u,v 的内积 u,v=π(i)u(i)v(i),或者是 uD0.5,vD0.5,其中 D0.5 是一个线性变换,为了让 P 所有的特征向量 orthonormal。

需要 ln(1/cϵ)δ 步才能让 Pt(x,) 垂直于 π 的部分至多为 ϵ,其中 δ 是 eigengap;注意因为 P 并非正定,所以 δ 其实是 λ1max(|λ2|,|λn|)

tmix(ϵ)=O(ln(1/ϵπ)δ),其中 π 是 sta-dis π 中的最小值。此处可以看到为何 tmix 的初态只能是单点态,而 tavg 可以是任一态:单点态是为了 π

若无向图无边权,则 π 至少为 1/m,而 m=O(n2),因此分子必为 lnn,是好的。

λn=1,此时 tmix 不一定存在;分析可得,仅在二分图上出现 λn=1,而二分图显然不可能存在 tmix。事实上,λn 衡量一张图有多像二分图。

λ2=1,则图并非强连通。


定义 normalized conductance Φ(S)=xS,yˉSπ(x)Px,ymin(π(S),π(ˉS))Φ 则是全体非空非满的 Φ(S)min。有 tavg(ϵ)=O(ln(1/π)Φ2ϵ3)。conductance 分析仅适用于无向图的场合:而前述的谱分解分析适用于一切场合。

Cheeger 不等式连结了 Φδ:它指出 δ2Φ2δ。但是,注意此处的 δ=λ1λ2,与谱分解中的 δ 不完全相同。当 P 正定时,两个 δ 相等;而强制令游走时以一半概率留在原地后,得到的新 MC 与原 MC 有着相同的 sta-dis,且由 Gerschgorin’s Theorem,新 MC 必然正定。

1-D Lattice, Φ=Ω(1/n)。2-D,Φ=Ω(1/n)。k-D,Φ=Ω(1/kn),此时 tavg=O(d3n2lnn)

无权图总是有 Φ=Ω(1/m) 的近似,因此 tavg=O(n4lnn),但是这个界非常松。


Coupling 是分布列 X1,Y1,,初态均为单点,且满足若它们在某处游走到同一点,则之后所有时刻均共同游走。注意,coupling 仅仅限制 Xi+1P(xi,),Yi+1P(yi,),没有限制 Xi+1,Yi+1 的 joint distribution。因此接下来会适当地选取合适的 J 处理。

dx,y(t)=|Pt(x,)Pt(y,)|,则 ˉd(t)=maxx,yΩdx,y(t)。且,d(t)dx,y(t)2d(t)

τ 为初次相遇时刻。则当 X0=x,Y0=y 时,

dx,y(t)Pr(Xt,Yt)J[τ>t]

后者由 Markov,E(Xt,Yt)J(τ)t。于是,可以取出任一一个 J,则 tmixmaxx,yΩE(Xt,Yt)J(τ)

这可以被用于更精细地 bound 一些界。例如,1-D Lattice 的场合,令 J 的 distribution 为,12 的概率 xy 不动,12 的概率 yx 不动,则 x,y 各自均分别满足随机游走的朴素规则,然后算二者初遇期望是容易的。此处可以得到 n2 的更优界,比使用 conductance 的 n2logn 更牛。

hypercube 随机游走同理:以 12 的概率停留,12n 的概率翻转某一位,可以等价于随机一位,然后以 12 的概率将 x,y 这一位上同赋为 01。可知 tmix=O(nlogn)

IV.杂项

Hoeffding 的证明:

由 Markov,Pr(Z>a)=Pr(esZ>esa)esaE(esz)。则 Pr(Xμ>ϵ)esϵE(es(Xμ))=esϵE(es(xiE(xi)))

Lemma: 若 E(V)=0aVb,则 E(esv)es2(ba)2/8,于是令 s=4ϵ(biai)2 可知 Pr(Xμ>ϵ)exp(2ϵ2(biai)2),也即 Hoeffding。

现在问题是 Lemma 如何证。首先由 exp 的凸性知

E(esv)bbaesaabaesb

然后令 u=s(ba)p=bba,定义 ψ(u)=ln(pesa+(1p)esb)=(p1)u+ln(p+(1p)eu),对其在 0 处 Lagrange 余项 Taylor 展开得到 ψ(u)=ψ(0)+ψ(0)u+12ψ(ξ)u2,前两者为 0,于是试证明 ψ(ξ)1/4。列二阶导然后处理即可。

posted @   Troverld  阅读(82)  评论(1编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
点击右上角即可分享
微信分享提示