浅论殖民者对父系社会在智利地区发展的影响

似了喵。整理这 b 玩意屁用没有捏。

\[\newcommand{\bf}{\mathbf} \]

I.高维几何

省流:

  • 体积集中于 shell。
  • 体积集中于 equator。
  • Gau-Ann-Thm: 高维 Gaussian 分布集中于 \(\sqrt d\) 附近。
  • Random Projection Theorem: 随机取向量并投影,大概率保距离。

\((1-\epsilon)\) 的部分,体积为 \((1-\epsilon)^d\leq e^{-\epsilon d}\)。因此,至少 \(1-e^{-\epsilon d}\) 的体积集中于 \(\epsilon\) 的 shell 上。特别地,\(r\)-球的绝大多数体积集中于 \(\dfrac rd\)-shell 中。

积分可得,\(V(d)=\dfrac{A(d)}{d}\)。事实上,\(A(d)=\dfrac{2\pi^{d/2}}{\Gamma(d/2)},V(d)=\dfrac{2\pi^{d/2}}{d\Gamma(d/2)}\)。特别地,\(\Gamma(1)=1,\Gamma(1/2)=\sqrt\pi,\Gamma(n+1)=n\Gamma(n)\)

在单位球中,\(1-\dfrac2ce^{-c^2/2}\) 的球体体积满足 \(|x_1|\leq\dfrac c{\sqrt{d-1}}\),即集中于赤道。证明靠嗯积。

单位球上随机抽 \(\bf x_1,\dots,\bf x_n\),以 \(1-O(1/n)\) 的概率均成立:

  • \(|\bf x_i|\geq1-\dfrac{2\ln n}d\)
  • \(|\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}\)

证明使用 Union Bound。

Spherical Gaussian: \(p(\bf x)=\dfrac1{(2\pi)^{d/2}}\exp(-\dfrac12\sum x_i^2)\)。【这个是 \(N(\bf 0,I_d)\) 的 PDF】

从球面随机 gen 点的方式,是用 sph-gau 随机 gen 点然后将其 normalize;从球内随机 gen 点的方式,是生成球面解然后将其抹开到整个球内。

Gau-Ann-Thm.: 当 \(X\sim N(\bf 0,I_d)\) 时,对于一切 \(\beta\leq\sqrt d\),至多 \(3e^{-c\beta^2}\) 的概率不落在 \(\sqrt d\pm\beta\) 的 annulus 里面。

证明:满足存在 \(k>0\) 使得 \(\Pr(|X|>t)\leq2\exp(-t^2/k^2)\) 的变量被称作 Sub-Gau 的变量。Sub-Gau 的变量可以定义 Sub-Gau-Norm \(\|\cdot\|_{\psi_2}\)\(E(X^2/t^2)\leq2\)\(t\) 下界;则对于独立的 Sub-Gau 们,存在 Hoeffding 的扩展

\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-\dfrac{ct^2}{\sum\|X_i\|_{\psi_2}^2}) \]

Sub-Exp 的变量满足 \(\Pr(|X|\geq t)\leq2\exp(-t/K)\)。Sub-Exp-Norm \(\|\cdot\|_{\psi_1}\)\(E(x/t)\leq2\)\(t\) 下界。

对于期望均为零、独立的 Sub-Exp 的变量们,有 Bernstein 定理

\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-c\min\left\{\dfrac{t^2}{\sum\|X_i\|_{\psi_1}^2},\dfrac t{\max\|X_i\|_{\psi_1}}\right\}) \]

Gau 是 Sub-Gau 的,因此 Gau 方是 Sub-Exp 的。若 \(X\sim(0,\sigma^2)\),则 \(\|X^2\|_{\psi_1}=\sigma^2\)

\(\Pr(|\sum X_i^2|-\sum E(X_i^2))\) 应用 Bernstein 即可。

同时有扩展 Hoeffding,适用于独立、零期望的随机变量们。

\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-\dfrac{ct^2}{\sum\|X_i\|_{\psi_2}^2}) \]

还是列一下几个朴素的不等式罢。

Markov:对于 非负\(x\)\(\Pr(x\geq c)\leq\dfrac{E(x)}c\)。其也可以被应用于变式:对于 \(r\)\(\Pr(x\geq c)\leq\dfrac{E(x^r)}{c^r}\)

Chebyshev:\(\Pr(|X-E(X)|>c\sigma(X))<\dfrac1{c^2}\)。证明对 \((X-E)^2\) 用 Mar。

Chenoff: \(\Pr(X\geq(1+\delta)\mu)\leq\left(\dfrac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu\)\(\Pr(X\leq(1-\delta)\mu)\leq\left(\dfrac{e^{-\delta}}{(1-\delta)^{1-\delta}}\right)^\mu\)。同时有推论:\(\Pr(X\geq(1+\delta)\mu)\leq e^{-1/3\delta^2\mu}\)\(\Pr(X\leq(1-\delta)\mu)\leq e^{-1/2\delta^2\mu}\)\(X\) 是若干次掷硬币(Bernoulli)组成。

Hoeffding 对于 \(X_i\in(a,b)\),有 \(\Pr(|\sum X_i-E(X_i)|\geq t)\leq2\exp(\dfrac{-2t^2}{n(b-a)^2})\)。在其不同分布时,也有 \(\Pr(|\sum X_i-E(X_i)|\geq t)\leq2\exp(\dfrac{-2t^2}{\sum(b_i-a_i)^2})\)。事实上,如果把内层的绝对值撤掉,那么右侧外部的 \(2\) 亦可撤掉。

大数定律:如果 \(x_i\) 均是 \(X\) 的取样,则 \(\Pr\left(|\dfrac1n\sum x-E(X)|\geq\epsilon\right)\leq\dfrac{V(X)}{n\epsilon^2}\),本质也是 Cheby。

Random Projection Theorem:

假如要将 \(d\) 阶数据压缩为 \(k\) 阶数据,则用 Spherical Gaussian 生成 \(k\) 个随机向量 \(\bf u_1,\dots,\bf u_k\) 并计算其在每个向量方向投影长度,构成一个 \(k\) 阶数据。以大概率地,这种压缩有 \(\|f(\bf x)\|\approx\sqrt k\|\bf x\|\)。具体而言,

\[\Pr(\big|\|f(\bf v)\|-\sqrt k\|\bf v\|\big|\geq\epsilon\sqrt k\|\bf v\|)\leq3e^{-ck\epsilon^2} \]

证明:不妨令 \(\|\bf v\|=1\),则 \(\bf u_i\cdot\bf v\sim N(0,1)\),则 \(\|f(\bf v)\|\sim N(\bf 0,I_k)\),应用 Gau-Ann-Thm 即证。应用 Union Bound 可以得到 JL Lemma,即当 \(k\geq\dfrac3{c\epsilon^2}\)\(1-\dfrac3{2n}\) 的概率,

\[(1-\epsilon)\sqrt k\|\bf v_i-\bf v_j\|\leq\|f(\bf v_i)-f(\bf v_j)\|\leq(1+\epsilon)\sqrt k\|\bf v_i-\bf v_j\| \]

Random Projection 压缩是保距离的,但是对 \(k\) 有要求,且不一定是最优压缩,这一点与 PCA 压缩不同。

分离两个 distribution。如果要分离两个 unit Gaussian(annulus 在 \(\sqrt d\) 附近的 Gaussian),Gaussian 的 center 距离至少为 \(\Omega(d^{1/4}\text{polylog}(n))\);如果要分离两个 unit ball,因为 unit Gaussian 其实和 \(\sqrt d\)-shell 差不多,而 unit ball 和 \(1\)-shell 差不多,因此分离 unit ball 需要的距离直接等比缩小为 \(\Omega(d^{-1/4}\text{polylog}(n))\) 足矣。

II.奇异值分解

有一个 \(m\times n\) 矩阵,满足 \(\rank A\ll m,n\)。试图将其拆成 \(A=USV^T=(m\times r)(r\times r)(n\times r)^T\),满足:

  • \(U,V\) 是正交单位 orthonormal 阵,即满足 \(U^TU=V^TV=I_R\),即 \(U,V\) 的列向量都是单位向量且彼此正交。
  • \(S\) 是对角矩阵 \(\text{diag}(\sigma_1,\dots,\sigma_r)\),其中 \(\sigma\) 被称作 singular value。
  • \(U\) 中列向量被称作 left singular vectors,\(V\) 中被称作 right singular vectors。

对于对称阵 \(M=M^T\),其必然存在 orthonormal 的特征向量 \(\bf u_1,\dots,\bf u_n\),于是有 \(MU=U\Lambda\)。orthonormal 矩阵有着 \(U^{-1}=U^T\) 的优秀性质,所以 \(M=U\Lambda U^T\)

对于对称半正定的 \(M\),有 \(\Lambda\) 中的所有 \(\lambda\geq0\),于是令 \(X=U\sqrt{\Lambda}\),则 \(M=XX^T\)

进一步,对于二次型 \(f_M(\bf y)=\bf y^TM\bf y\),有 \(f_M(\bf y)=\|X^T\bf y\|^2\)

假设 \(A=USV^T\),则 \(A^TA=VS^2V^T,AA^T=US^2U^T\)。于是,一种可行的想法是,令 \(V\) 成为 \(A^TA\) 的特征向量集合,\(U\) 成为 \(AA^T\) 的特征向量集合,此时如果 \(A^TA\)\(AA^T\) 具有相同的特征值分布,则这构成 \(A\) 的 SVD。

\(\bf v\)\(A^TA\) 的特征向量,即 \(A^TA\bf v=\lambda\bf v\),则 \(AA^T(A\bf v)=A(A^TA\bf v)=A\lambda\bf v=\lambda(A\bf v)\),于是 \(A\bf v\)\(AA^T\) 的特征向量。

\(\|A\bf v\|^2=\bf v^TA^TA\bf v=\lambda\|\bf v\|^2\)。因此取一组 orthonormal 的 \(\bf v\) 后,通过令 \(S=\sqrt\Lambda\)\(U=AVS^{-1}\) 即可得到 orthonormal 的 \(\bf u\) 集合。

通过此法定义的 SVD,有:\(U=(m\times n),S=(n\times n),V=(n\times n)\)

这个东西没有对称性。(在 \(m\geq n\) 的场合)可以将 \(U,S\) 人工拉长为 \(U=(m\times m),S=(m\times n)\) 来保证对称性,此时的分解称作 full SVD。在 \(m<n\) 的场合应该反过来选择从 \(U\) 生成 \(V\) 来得到 full SVD。

注意 full SVD 的 \(A=USV^T\) 其实展开来是 \(A=\sum\limits_{i=1}^{\min(n,m)}\sigma_i\bf u_i\bf v_i\) 的式子;实对称矩阵 \(AA^T\) 的非零特征值数目等于其秩,而 \(\rank(AA^T)=\rank(A)\),因此可以剪裁掉 \(S\) 中那些零特征值式对应的部分,得到 \(A=(m\times r)\times(r\times r)\times(n\times r)^T\) 的 reduce SVD。

full SVD 有着如下效果:

  • \(U\) 的前 \(r\) 列是 \(A\) 列空间的单位正交基。
  • \(U\) 的后 \(m-r\) 列是 \(A\) 零空间的单位正交基。
  • \(V\) 的前 \(r\) 列是 \(A^T\) 列空间的单位正交基。
  • \(V\) 的后 \(n-r\) 列是 \(A^T\) 零空间的单位正交基。

SVD 的应用:

定义矩阵的 Frobenious Norm \(\|M\|_F=\sqrt{\sum\limits_{i,j}m_{i,j}^2}=\sqrt{\tr M^TM}\)。将 \(M\) 奇异值分解后,会发现 \(\|M\|_F^2\) 其实就是 \(A^TA\) 奇异值平方和,也即 \(A^TA\)\(AA^T\) 共有的一组特征值之和,也就是 trace。

\(A_h\) 为所有 rank 为 \(h\) 的矩阵中,与 \(A\) 差的 Frobenious Norm 最小的那个矩阵。

声称,将 \(S\) 的元素重排使得奇异值从左上到右下递减后,\(A_h\) 可以由 \(U\) 的前 \(h\) 列、\(S\) 的左上角 \(h\times h\)\(V\) 的前 \(h\) 列的转置三者相乘得到。【Eckart-Young Theorem】

事实上,\(A_h\) 不仅是差 F-norm 最小的矩阵,同时也是 2-norm 最小的矩阵,其中 \(\|A\|_2=\max\limits_{\|\bf x\|=1}\|A\bf x\|\) 即最大拉伸比例。通过将 \(\bf x\)\(\bf v\) 上分解,易知 2-norm 即为 \(\sigma_1\)

\(\sigma_i(X)\) 为矩阵 \(X\) 的第 \(i\) 大奇异值。则:

对于一切 rank 为 \(h\) 的矩阵 \(M\),声称 \(\sigma_{i+h}(A)\leq\sigma_i(M-A)\)

\(M\) 的秩为 \(h\),则其零空间的秩为 \(n-h\)。于是 \(\text{Null}(M)\cap\text{Span}\{\bf v_1,\dots,\bf v_{h+1}\}\) 必然不可能仅含零向量。取其中的非零向量 \(\omega\),则

\[\|A\omega\|=\|(A-M)\omega\|\leq\sigma_1(A-M)\|\omega\| \]

\[\|A\omega\|^2=\sum_{i=1}^{h+1}\sigma_i^2(\bf v_i^T\omega)^2 \\\geq\sigma_{h+1}^2\sum_{i=1}^{h+1}(\bf v_i^T\omega)^2 \\=\sigma_{h+1}^2(A)\|\omega\|^2 \]

于是 \(\sigma_1(A-M)\geq\sigma_{h+1}(A)\)。归纳可得对于一切的 \(i\)\(h+i\) 均成立。

然后知 \(A_h\) 取到下界,因为 \(A-M\) 的奇异值集合即为 \(h+1\) 以后的奇异值集合,而取 \(M\)\(A_h\) 时恰取到该集合。

PCA 问题:对于 \(\R^m\)\(\bf x_1,\dots,\bf x_n\)\(n\) 个点,找到位于 \(k\) 维子空间的 \(\tilde{\bf x}_1,\dots,\tilde{\bf x}_n\),最小化 \(\sum\|\bf x_i-\tilde{\bf x}_i\|^2\)

第一步是把所有 \(\bf x_i\) 减去平均值,使得其靠近中心。

然后构建如下的算法:

  • 找到单位球上 \(\bf v_1\),最大化 \(\bf v_1\) 与所有 \(\bf x_i\) 的点积的平方和。
  • 找到单位球上 \(\bf v_2\),垂直于 \(\bf v_1\),最大化点积平方和。
  • ……
  • 每一步,在单位球上新找一个向量,垂直于之前所有向量,并最大化点积平方和。
  • 如果进行到某一步增量为零,则当前子空间已经覆盖全体 \(\bf x_i\),算法终止。

该算法与 SVD 等价。

事实上,算 PCA 的方法,即为取出 \(\bf v_1,\dots,\bf v_k=V_k\) 然后计算 \(AV_k\) 即得那些与 \(A\) 中点距离平方和最小的子空间。


Power Method 提供求 \(\bf v\) 的方法。已知 \(B=A^TA=\sum\sigma_i^2\bf v_i\bf v_i^T\),则当 \(\bf x=\sum c_i\bf v_i\) 时, \(B^k\bf x=\sum\sigma_i^{2k}c_i\bf v_i\)。当 eigen gap \(\sigma_1-\sigma_2\) 足够大时,可以近似视作 \(\sigma_1^{2k}c_i\bf v_i\)

Theorem 3.11: 若 \(|\bf x\cdot\bf v_1|\geq\delta>0\),则令 \(V\)\(A\) 的 right singular vector 中那些对应奇异值大于 \((1-\epsilon)\delta\) 的张成的子空间,则令 \(\bf w\)\(k=\dfrac{\ln(1/\epsilon)}{2\epsilon}\) 次【事实上,\(k\) 取最大的满足 \(\sigma_1\dots\sigma_k\geq(1-\epsilon)\sigma_1\)\(k\)】迭代后的单位向量,即

\[\bf w=\dfrac{(A^TA)^k\bf x}{\|(A^TA)^k\bf x\|} \]

\(\bf w\) 垂直于 \(V\) 的分量模长不超过 \(\epsilon\)

或者,最准确的表述为,\(V\) 为那些大于 \((1-\epsilon_1)\sigma_1\) 右奇异向量张成线性空间,则 \(k\) 取到 \(O(\dfrac{\ln(1/\epsilon_2\delta)}{\epsilon_1})\) 即可满足垂直分量模长不超过 \(\epsilon_2\)

community detection:同一个 community 的以 \(p\) 的概率连边,非同一个 community 的以 \(q\) 概率连边,已知 \(p>q\)

已知 \(p,q\) 时,划分 community 的方法,为:

  • 已知 \(\rank E(A)=2\),且 \(E(A)\)\(\sigma_1=\dfrac{p+q}2n,\bf v_1=[1,\dots,1]\)\(\sigma_2=\dfrac{p-q}2n,\bf v_2=[1,\dots,1,-1,\dots,-1]\)。那么,算 \(\bf v_2\) 即可 detect。事实上,3-community 算 \(\bf v_3\),……。错误数目为 \(\#\text{mistakes}\leq\dfrac1{\mu^2},\mu=\min(q,p-q)\),是与 \(n\) 无关的值。

放两个意义不明的结论

Thm.: [Davis-Khan] let \(A=\sum\lambda_i\bf u_i\bf u_i^T,\hat A=\sum\hat\lambda_i\hat{\bf u}_i\hat{\bf u}_i^T\) with \(A,\hat A\) real-symmetric, \(\lambda_1\geq\lambda_2\geq\dots\).

If \(\lambda_i-\lambda_{i-1}\geq\delta,\lambda_{i+1}-\lambda_i\geq\delta\), then \(\min_{\epsilon\in[-1,1]}\sin(\bf u_i\cdot\hat{\bf u}_i)\leq\dfrac{\|\hat A-A\|_{op}}6\).

Where, Frobinious norm has \(\|A\|_F=\sum\sigma_i^2\), and \(\|A\|_{op}=\max\sigma_i\).

This is to say, close matrices have close eigen vectors.

Another Theorem shows the bound of \(\|\cdot\|_{op}\).

With high probability, \(\|A-E(A)\|_{op}=O(\sqrt n)\), hence \(\|\bf v_2(A)-\bf v_2(E(A))\|\leq\dfrac{\sqrt n}{n\mu}\).

III.Markov 链

一个有限 Markov 链是一组概率分布 \(X_1,X_2,\dots\),满足 \(P(X_{i+1}=y\mid P_{1}=x_1,\dots,P_i=x_i)=P(X_{i+1}=y\mid P_i=x_i)=P_{x,y}\)。有限并非 Markov 链的长度有限,而是状态集合 \(\Omega\) 是有限集。

概率分布向量往往被认为是行向量。\(P\) 的每一行都是一个概率分布向量。

\(P\) 满足好性质:

  • \(\lambda_1=1,\bf v_1=\bf1\)
  • \(\lambda\)\(P\) 特征值,则 \(\lambda^k\)\(P^k\) 特征值;因为一切的 \(P^k\) 均为 Markov 矩阵,而显然必有 \(|\lambda|\leq\sum P_{i,j}=n\),所以须有 \(|\lambda|\leq1\)
  • \(P\) 是连通无向图随机游走矩阵时,因为无向图随机游走矩阵是 \(D^{-1}A\),其相似于 \(D^{-0.5}AD^{-0.5}\),后者因为 \(A\) 是对称矩阵所以亦是对称矩阵,对称矩阵有实特征值,所以连通无向图随机游走矩阵有 \(1=\lambda_1\geq\dots\geq\lambda_n\geq-1\);注意其不一定正定。

\(\bf a(t)=\dfrac1t\sum\bf x(t)\),则由 Cauchy 引理 \(\bf a(t)\) 必然收敛,且易知 \(\bf a\) 满足 \(\bf aP=\bf a\)

不易知。

首先介绍一种证明 unique 的方法。

考虑 \(n\times(n+1)\) 矩阵 \([P-I,\bf 1]\)。求其零空间:易知 \([1,1,\dots,1,0]\) 是零空间中元素。假设 \([x_1,\dots,x_n,\alpha]\) 亦是零空间中元素。

\(x_1,\dots,x_n\) 全同,则 \([0,\dots,0,\alpha]\) 是零空间中元素,推出 \(\alpha=0\),不合法。否则不全同,考虑其中 \(\arg\max\) 集合。则 \(\arg\max\) 中必然有一个会被非 \(\max\) 的元素指向(否则就不 irreducible 即强连通,或不全同了)而易验证此时意味着其不可能是零空间元素。

然后知 \([P-I,\bf1]\) 的零空间维数为 \(1\),秩为 \(n\),于是 \(P-I\) 秩至少为 \(n-1\)\(\pi\) 存在则必唯一。

同样的方法可以用于证明,\(\bf a\) 收敛至合法的 \(\pi\)。取 \(\bf b(t)=\bf a(t)(P-I)\),则 \(\bf b(t)=\dfrac1t(\bf x(t)-\bf x(0))\to\bf 0\)。取 \(B\)\([P-I,\bf 1]\) 删去第一列得到的矩阵,则其必然可逆。取 \(\bf c(t)\)\(\bf b(t)\) 删去第一元素得到的向量,则 \(\bf a(t)B=[\bf c(t),1]\),有

\[\pi=\lim_{t\to\infty}\bf a(t)=\lim_{t\to\infty}[\bf c(t),1]B^{-1}=[0,\dots,0,1]B^{-1} \]

易知其所有项都非负,于是 \(\pi\) 存在且唯一。

但是问题是,是否存在 \(\pi P=\pi\) 的 stationary distribution?答曰:必然存在,且 connected 时唯一。

存在性因为 \(P\) 映射是凸集到自身的连续映射,由不动点定理必然存在不动点。

唯一性,则须证明 \(P-I\) 的行零空间维数恰为 \(1\)

假设 \(hP=P\),则令 \(h(m)\)\(\arg\max\) 且等于 \(M\),则走一步得到所有能到 \(m\) 的全得是 \(M\),最终得到 \(m\) 所在连通块必须全等于 \(M\),而因为 connected 所以连通块唯一。

connected 指对于一切 \(x,y\)\(x\) 可以在有限步内到 \(y\)

通过 \(\hat P(x,y)=\dfrac{\pi(y)P(y,x)}{\pi(x)}\) 可以定义一个 Markov Chain 的 reverse。如果 MC 的 reverse 等于自身,则称这个 MC 是 (time) reversble 的。

aperiodic,当且仅当所有环长 \(\gcd\)\(1\)。periodic 的场合,\(\bf p(t)\) 不一定收敛。

假如发现 \(\pi(x)P(x,y)=\pi(y)P(x,y)\),则这同时推出 \(P\) 是 reversible 和 \(\pi\) 是 stationary distribution。这可以被用于构造性地求 sta-dis。


MCMC 是用于解决这样的问题,对于某个 \(\Omega\)\(\Omega\) 上函数 \(f\)\(\Omega\) 上的一个概率分布 \(\bf p\),求出 \(E(f)=\sum\limits_{x\in\Omega}f(x)\bf p(x)\);若 \(\Omega\) 过大(例如,\(\Omega=[0,n-1]^d\)),则枚举 \(\Omega\) 中所有东西是高复杂度的。此时,可以构造 MC \(P\) 使得 \(P\) 的 sta-dis 恰为 \(\bf p\),这样之后因为线性性,所以可以取任一初态 \(\bf x\),然后用 \(\bf x\) 在 MC 上跑并求 \(\bf a=\dfrac1t\sum\bf x\) 然后用 \(f(\bf a)\) 拟合 \(E(f)\)

现在问题是如何构建这样的 \(P\)。显然,构建 \(P\) 的方法并不唯一,且 \(P\) 总是要求 \(f(\bf xP^t)\) 是好算的。有两种可行的 \(P\) 构建法:

  • Metropolis-Hasting 方法:其任取一张图 \(G\),令 \(r\) 为其上最大度数,然后 \(p_{i,j}=\dfrac1r\min(1,\dfrac{p_j}{p_i})\)\(p_{i,i}=1-\sum_{j\neq i} p_{i,j}\)。此时,\(p_ip_{i,j}=\dfrac1r\min(p_i,p_j)=p_jp_{j,i}\)。选择合适的 \(G\) 可以让转移简便。例如,当 \(\Omega=[0,n-1]^d\) 即可令 \(G\) 上的边为编辑距离恰为 \(1\) 的那些点。例如,算最大割,则状态数是 \(\{0,1\}^n\),每次调整随机扔一个到另一侧,即为模拟退火。
  • Gibbs' Sampling: 假设状态空间是 \(\{0,\dots,n-1\}^d\)​ 的子集,则两个编辑距离恰差 \(1\)​ 的 \(x_1,\dots,x_d\)​ 与 \(y_1,\dots,y_d\)​ 满足 \(P(x,y)=\dfrac1d\dfrac{\bf p(y)}{\sum\limits_{z与x恰和y在同一位上不同}\bf p(z)}\)​。也即,\(x,y\)​ 在某一位上不同,则所有这一位上不同的 \(z\)​ 共同做分母,则每一维上所有东西的和为 \(\dfrac1d\)​,所有和恰为 \(1\)​。

两个 distribution 的 Total Variation Distance

\[d_{TV}(\mu,\nu)=\max_{A\sube\Omega}|\mu(A)-\nu(A)| \]

易知 \(d_{TV}(\mu,\nu)=\dfrac12\sum|\mu(x)-\nu(x)|\)

另一种结果为,考虑 \(J\) 为一切 \(\mu,\nu\) 的 joint distribution(在 \(\Omega\) 有限的时候,\(J\) 可以记作一个矩阵,矩阵的行和与列和由 \(\mu,\nu\) 确定),则

\[d_{TV}(\mu,\nu)=\min_J(\Pr\limits_{(x,y)\sim J}[x\neq y]) \]

这种分析被用在 Coupling 的场合。

\(P^t(X,\cdot)\) 为自初态 \(X\)\(t\) 步的 distribution,即 \(XP^T\)。令 \(P^t(x,\cdot)\) 为自 \(x\) 单点出发的 distribution。定义 \(d(t)=\max\limits_{x\in\Omega}|P^t(x,\cdot)-\pi|_{TV}\)\(\epsilon\)-mixing time 为 满足 \(d(t)<\epsilon\) 的最小 \(t\)。而,另一种定义的 \(t_{avg}\) 则是对于一切初态 \(\bf x(0)\)(注意,这里的初态不一定是单点分布),要求 \(|\bf a(t)-\pi|_{TV}<\epsilon\)\(t_{avg}\)\(t_{mix}\) 在 aperiodic 的场合类似:此时必有 \(t_{mix}<t_{avg}\)

有一个性质是,不同的 \(t_{mix}(\epsilon)\) 之间,满足给定一个 \(t_{mix}(\epsilon_0)\) 则可以用于 bound 所有的 \(t_{mix}(\epsilon)\)。这是因为,定义 \(\bar d(t)=\max\limits_{x,y\in\Omega}|P^t(x,\cdot)-P^t(y,\cdot)|\),则易知 \(d(t)\leq\bar d(t)\leq2d(t)\),且 \(\bar d(t)\) 满足 \(\bar d(s+t)\leq\bar d(s)\bar d(t)\) 的好性质,因为

\[P^{s+t}(x,z)=\mathop E\limits_{X_s}(P^t(X_s,z))&(X_s\sim P^s(x,\cdot)) \\|P^{s+t}(x,\cdot)-P^{s+t}(y,\cdot)|_{TV} \\=\mathop E\limits_{X_s}|P^t(X_s,\cdot)-P^t(Y_s,\cdot)|_{TV} \\\leq\Pr(X_s\neq Y_s)\bar d(t) \\\leq\bar d(s)\bar d(t) \]

这是 mixing time 最朴素的定义。


\(\bf xP^t\) 其实是在作 Power Method。可以定义 \(u,v\) 的内积 \(\lang u,v\rang=\sum\pi(i)u(i)v(i)\),或者是 \(\lang uD^{0.5},vD^{0.5}\rang\),其中 \(D^{0.5}\) 是一个线性变换,为了让 \(P\) 所有的特征向量 orthonormal。

需要 \(\dfrac{\ln(1/c\epsilon)}\delta\) 步才能让 \(P^t(x,\cdot)\) 垂直于 \(\pi\) 的部分至多为 \(\epsilon\),其中 \(\delta\) 是 eigengap;注意因为 \(P\) 并非正定,所以 \(\delta\) 其实是 \(\lambda_1-\max(|\lambda_2|,|\lambda_n|)\)

\(t_{mix}(\epsilon)=O(\dfrac{\ln(1/\epsilon\pi^*)}\delta)\),其中 \(\pi^*\) 是 sta-dis \(\pi\) 中的最小值。此处可以看到为何 \(t_{mix}\) 的初态只能是单点态,而 \(t_{avg}\) 可以是任一态:单点态是为了 \(\pi^*\)

若无向图无边权,则 \(\pi^*\) 至少为 \(1/m\),而 \(m=O(n^2)\),因此分子必为 \(\ln n\),是好的。

\(\lambda_n=-1\),此时 \(t_{mix}\) 不一定存在;分析可得,仅在二分图上出现 \(\lambda_n=-1\),而二分图显然不可能存在 \(t_{mix}\)。事实上,\(\lambda_n\) 衡量一张图有多像二分图。

\(\lambda_2=1\),则图并非强连通。


定义 normalized conductance \(\Phi(S)=\dfrac{\sum\limits_{x\in S,y\in\bar S}\pi(x)P_{x,y}}{\min(\pi(S),\pi(\bar S))}\)\(\Phi\) 则是全体非空非满的 \(\Phi(S)\)\(\min\)。有 \(t_{avg}(\epsilon)=O(\dfrac{\ln(1/\pi^*)}{\Phi^2\epsilon^3})\)。conductance 分析仅适用于无向图的场合:而前述的谱分解分析适用于一切场合。

Cheeger 不等式连结了 \(\Phi\)\(\delta\):它指出 \(\dfrac\delta2\leq\Phi\leq\sqrt{2\delta}\)。但是,注意此处的 \(\delta=\lambda_1-\lambda_2\),与谱分解中的 \(\delta\) 不完全相同。当 \(P\) 正定时,两个 \(\delta\) 相等;而强制令游走时以一半概率留在原地后,得到的新 MC 与原 MC 有着相同的 sta-dis,且由 Gerschgorin’s Theorem,新 MC 必然正定。

1-D Lattice, \(\Phi=\Omega(1/n)\)。2-D,\(\Phi=\Omega(1/n)\)。k-D,\(\Phi=\Omega(1/kn)\),此时 \(t_{avg}=O(d^3n^2\ln n)\)

无权图总是有 \(\Phi=\Omega(1/m)\) 的近似,因此 \(t_{avg}=O(n^4\ln n)\),但是这个界非常松。


Coupling 是分布列 \(X_1,\dots\)\(Y_1,\dots\),初态均为单点,且满足若它们在某处游走到同一点,则之后所有时刻均共同游走。注意,coupling 仅仅限制 \(X_{i+1}\sim P(x_i,\cdot),Y_{i+1}\sim P(y_i,\cdot)\),没有限制 \(X_{i+1},Y_{i+1}\) 的 joint distribution。因此接下来会适当地选取合适的 \(J\) 处理。

\(d_{x,y}(t)=|P^t(x,\cdot)-P^t(y,\cdot)|\),则 \(\bar d(t)=\max\limits_{x,y\in\Omega}d_{x,y}(t)\)。且,\(d(t)\leq d_{x,y}(t)\leq2d(t)\)

\(\tau\) 为初次相遇时刻。则当 \(X_0=x,Y_0=y\) 时,

\[d_{x,y}(t)\leq\Pr\limits_{(X_t,Y_t)\sim J}[\tau>t] \]

后者由 Markov,\(\leq\dfrac{\mathop E\limits_{(X_t,Y_t)\sim J}(\tau)}t\)。于是,可以取出任一一个 \(J\),则 \(t_{mix}\leq\max\limits_{x,y\in\Omega}\mathop E\limits_{(X_t,Y_t)\sim J}(\tau)\)

这可以被用于更精细地 bound 一些界。例如,1-D Lattice 的场合,令 \(J\) 的 distribution 为,\(\dfrac12\) 的概率 \(x\)\(y\) 不动,\(\dfrac12\) 的概率 \(y\)\(x\) 不动,则 \(x,y\) 各自均分别满足随机游走的朴素规则,然后算二者初遇期望是容易的。此处可以得到 \(n^2\) 的更优界,比使用 conductance 的 \(n^2\log n\) 更牛。

hypercube 随机游走同理:以 \(\dfrac12\) 的概率停留,\(\dfrac1{2n}\) 的概率翻转某一位,可以等价于随机一位,然后以 \(\dfrac12\) 的概率将 \(x,y\) 这一位上同赋为 \(0\)\(1\)。可知 \(t_{mix}=O(n\log n)\)

IV.杂项

Hoeffding 的证明:

由 Markov,\(\Pr(Z>a)=\Pr(e^{sZ}>e^{sa})\leq e^{-sa}E(e^{sz})\)。则 \(\Pr(X-\mu>\epsilon)\leq e^{-s\epsilon}E(e^{s(X-\mu)})=e^{-s\epsilon}\prod E(e^{s(x_i-E(x_i))})\)

Lemma: 若 \(E(V)=0\)\(a\leq V\leq b\),则 \(E(e^{sv})\leq e^{s^2(b-a)^2/8}\),于是令 \(s=\dfrac{4\epsilon}{\sum(b_i-a_i)^2}\) 可知 \(\Pr(X-\mu>\epsilon)\leq\exp(\dfrac{-2\epsilon^2}{\sum(b_i-a_i)^2})\),也即 Hoeffding。

现在问题是 Lemma 如何证。首先由 \(\exp\) 的凸性知

\[E(e^{sv})\leq\dfrac b{b-a}e^{sa}-\dfrac a{b-a}e^{sb} \]

然后令 \(u=s(b-a)\)\(p=\dfrac b{b-a}\),定义 \(\psi(u)=\ln(pe^{sa}+(1-p)e^{sb})=(p-1)u+\ln(p+(1-p)e^u)\),对其在 \(0\) 处 Lagrange 余项 Taylor 展开得到 \(\psi(u)=\psi(0)+\psi'(0)u+\dfrac12\psi''(\xi)u^2\),前两者为 \(0\),于是试证明 \(\psi''(\xi)\leq1/4\)。列二阶导然后处理即可。

posted @ 2024-06-11 13:31  Troverld  阅读(41)  评论(1编辑  收藏  举报