浅论殖民者对父系社会在智利地区发展的影响

似了喵。整理这 b 玩意屁用没有捏。

\[\newcommand{\bf}{\mathbf} \]

I.高维几何

省流：

体积集中于 shell。
体积集中于 equator。
Gau-Ann-Thm: 高维 Gaussian 分布集中于 \(\sqrt d\) 附近。
Random Projection Theorem: 随机取向量并投影，大概率保距离。

\((1-\epsilon)\) 的部分，体积为 \((1-\epsilon)^d\leq e^{-\epsilon d}\)。因此，至少 \(1-e^{-\epsilon d}\) 的体积集中于 \(\epsilon\) 的 shell 上。特别地，\(r\)-球的绝大多数体积集中于 \(\dfrac rd\)-shell 中。

积分可得，\(V(d)=\dfrac{A(d)}{d}\)。事实上，\(A(d)=\dfrac{2\pi^{d/2}}{\Gamma(d/2)},V(d)=\dfrac{2\pi^{d/2}}{d\Gamma(d/2)}\)。特别地，\(\Gamma(1)=1,\Gamma(1/2)=\sqrt\pi,\Gamma(n+1)=n\Gamma(n)\)。

在单位球中，\(1-\dfrac2ce^{-c^2/2}\) 的球体体积满足 \(|x_1|\leq\dfrac c{\sqrt{d-1}}\)，即集中于赤道。证明靠嗯积。

单位球上随机抽 \(\bf x_1,\dots,\bf x_n\)，以 \(1-O(1/n)\) 的概率均成立：

\(|\bf x_i|\geq1-\dfrac{2\ln n}d\)；
\(|\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}\)。

证明使用 Union Bound。

Spherical Gaussian: \(p(\bf x)=\dfrac1{(2\pi)^{d/2}}\exp(-\dfrac12\sum x_i^2)\)。【这个是 \(N(\bf 0,I_d)\) 的 PDF】

从球面随机 gen 点的方式，是用 sph-gau 随机 gen 点然后将其 normalize；从球内随机 gen 点的方式，是生成球面解然后将其抹开到整个球内。

Gau-Ann-Thm.: 当 \(X\sim N(\bf 0,I_d)\) 时，对于一切 \(\beta\leq\sqrt d\)，至多 \(3e^{-c\beta^2}\) 的概率不落在 \(\sqrt d\pm\beta\) 的 annulus 里面。

证明：满足存在 \(k>0\) 使得 \(\Pr(|X|>t)\leq2\exp(-t^2/k^2)\) 的变量被称作 Sub-Gau 的变量。Sub-Gau 的变量可以定义 Sub-Gau-Norm \(\|\cdot\|_{\psi_2}\) 为 \(E(X^2/t^2)\leq2\) 的 \(t\) 下界；则对于独立的 Sub-Gau 们，存在 Hoeffding 的扩展

\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-\dfrac{ct^2}{\sum\|X_i\|_{\psi_2}^2}) \]
Sub-Exp 的变量满足 \(\Pr(|X|\geq t)\leq2\exp(-t/K)\)。Sub-Exp-Norm \(\|\cdot\|_{\psi_1}\) 为 \(E(x/t)\leq2\) 的 \(t\) 下界。

对于期望均为零、独立的 Sub-Exp 的变量们，有 Bernstein 定理

\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-c\min\left\{\dfrac{t^2}{\sum\|X_i\|_{\psi_1}^2},\dfrac t{\max\|X_i\|_{\psi_1}}\right\}) \]
Gau 是 Sub-Gau 的，因此 Gau 方是 Sub-Exp 的。若 \(X\sim(0,\sigma^2)\)，则 \(\|X^2\|_{\psi_1}=\sigma^2\)。

对 \(\Pr(|\sum X_i^2|-\sum E(X_i^2))\) 应用 Bernstein 即可。

同时有扩展 Hoeffding，适用于独立、零期望的随机变量们。

\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-\dfrac{ct^2}{\sum\|X_i\|_{\psi_2}^2}) \]

还是列一下几个朴素的不等式罢。

Markov：对于非负的 \(x\) ，\(\Pr(x\geq c)\leq\dfrac{E(x)}c\)。其也可以被应用于变式：对于 \(r\) ，\(\Pr(x\geq c)\leq\dfrac{E(x^r)}{c^r}\)。

Chebyshev：\(\Pr(|X-E(X)|>c\sigma(X))<\dfrac1{c^2}\)。证明对 \((X-E)^2\) 用 Mar。

Chenoff： \(\Pr(X\geq(1+\delta)\mu)\leq\left(\dfrac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu\)。\(\Pr(X\leq(1-\delta)\mu)\leq\left(\dfrac{e^{-\delta}}{(1-\delta)^{1-\delta}}\right)^\mu\)。同时有推论：\(\Pr(X\geq(1+\delta)\mu)\leq e^{-1/3\delta^2\mu}\)，\(\Pr(X\leq(1-\delta)\mu)\leq e^{-1/2\delta^2\mu}\)。\(X\) 是若干次掷硬币（Bernoulli）组成。

Hoeffding 对于 \(X_i\in(a,b)\)，有 \(\Pr(|\sum X_i-E(X_i)|\geq t)\leq2\exp(\dfrac{-2t^2}{n(b-a)^2})\)。在其不同分布时，也有 \(\Pr(|\sum X_i-E(X_i)|\geq t)\leq2\exp(\dfrac{-2t^2}{\sum(b_i-a_i)^2})\)。事实上，如果把内层的绝对值撤掉，那么右侧外部的 \(2\) 亦可撤掉。

大数定律：如果 \(x_i\) 均是 \(X\) 的取样，则 \(\Pr\left(|\dfrac1n\sum x-E(X)|\geq\epsilon\right)\leq\dfrac{V(X)}{n\epsilon^2}\)，本质也是 Cheby。

Random Projection Theorem：

假如要将 \(d\) 阶数据压缩为 \(k\) 阶数据，则用 Spherical Gaussian 生成 \(k\) 个随机向量 \(\bf u_1,\dots,\bf u_k\) 并计算其在每个向量方向投影长度，构成一个 \(k\) 阶数据。以大概率地，这种压缩有 \(\|f(\bf x)\|\approx\sqrt k\|\bf x\|\)。具体而言，

\[\Pr(\big|\|f(\bf v)\|-\sqrt k\|\bf v\|\big|\geq\epsilon\sqrt k\|\bf v\|)\leq3e^{-ck\epsilon^2} \]

证明：不妨令 \(\|\bf v\|=1\)，则 \(\bf u_i\cdot\bf v\sim N(0,1)\)，则 \(\|f(\bf v)\|\sim N(\bf 0,I_k)\)，应用 Gau-Ann-Thm 即证。应用 Union Bound 可以得到 JL Lemma，即当 \(k\geq\dfrac3{c\epsilon^2}\) 以 \(1-\dfrac3{2n}\) 的概率，

Random Projection 压缩是保距离的，但是对 \(k\) 有要求，且不一定是最优压缩，这一点与 PCA 压缩不同。

分离两个 distribution。如果要分离两个 unit Gaussian（annulus 在 \(\sqrt d\) 附近的 Gaussian），Gaussian 的 center 距离至少为 \(\Omega(d^{1/4}\text{polylog}(n))\)；如果要分离两个 unit ball，因为 unit Gaussian 其实和 \(\sqrt d\)-shell 差不多，而 unit ball 和 \(1\)-shell 差不多，因此分离 unit ball 需要的距离直接等比缩小为 \(\Omega(d^{-1/4}\text{polylog}(n))\) 足矣。

II.奇异值分解

有一个 \(m\times n\) 矩阵，满足 \(\rank A\ll m,n\)。试图将其拆成 \(A=USV^T=(m\times r)(r\times r)(n\times r)^T\)，满足：

\(U,V\) 是正交单位 orthonormal 阵，即满足 \(U^TU=V^TV=I_R\)，即 \(U,V\) 的列向量都是单位向量且彼此正交。
\(S\) 是对角矩阵 \(\text{diag}(\sigma_1,\dots,\sigma_r)\)，其中 \(\sigma\) 被称作 singular value。
\(U\) 中列向量被称作 left singular vectors，\(V\) 中被称作 right singular vectors。

对于对称阵 \(M=M^T\)，其必然存在 orthonormal 的特征向量 \(\bf u_1,\dots,\bf u_n\)，于是有 \(MU=U\Lambda\)。orthonormal 矩阵有着 \(U^{-1}=U^T\) 的优秀性质，所以 \(M=U\Lambda U^T\)。

对于对称半正定的 \(M\)，有 \(\Lambda\) 中的所有 \(\lambda\geq0\)，于是令 \(X=U\sqrt{\Lambda}\)，则 \(M=XX^T\)。

进一步，对于二次型 \(f_M(\bf y)=\bf y^TM\bf y\)，有 \(f_M(\bf y)=\|X^T\bf y\|^2\)。

假设 \(A=USV^T\)，则 \(A^TA=VS^2V^T,AA^T=US^2U^T\)。于是，一种可行的想法是，令 \(V\) 成为 \(A^TA\) 的特征向量集合，\(U\) 成为 \(AA^T\) 的特征向量集合，此时如果 \(A^TA\) 和 \(AA^T\) 具有相同的特征值分布，则这构成 \(A\) 的 SVD。

若 \(\bf v\) 是 \(A^TA\) 的特征向量，即 \(A^TA\bf v=\lambda\bf v\)，则 \(AA^T(A\bf v)=A(A^TA\bf v)=A\lambda\bf v=\lambda(A\bf v)\)，于是 \(A\bf v\) 是 \(AA^T\) 的特征向量。

有 \(\|A\bf v\|^2=\bf v^TA^TA\bf v=\lambda\|\bf v\|^2\)。因此取一组 orthonormal 的 \(\bf v\) 后，通过令 \(S=\sqrt\Lambda\)， \(U=AVS^{-1}\) 即可得到 orthonormal 的 \(\bf u\) 集合。

通过此法定义的 SVD，有：\(U=(m\times n),S=(n\times n),V=(n\times n)\)。

这个东西没有对称性。（在 \(m\geq n\) 的场合）可以将 \(U,S\) 人工拉长为 \(U=(m\times m),S=(m\times n)\) 来保证对称性，此时的分解称作 full SVD。在 \(m<n\) 的场合应该反过来选择从 \(U\) 生成 \(V\) 来得到 full SVD。

注意 full SVD 的 \(A=USV^T\) 其实展开来是 \(A=\sum\limits_{i=1}^{\min(n,m)}\sigma_i\bf u_i\bf v_i\) 的式子；实对称矩阵 \(AA^T\) 的非零特征值数目等于其秩，而 \(\rank(AA^T)=\rank(A)\)，因此可以剪裁掉 \(S\) 中那些零特征值式对应的部分，得到 \(A=(m\times r)\times(r\times r)\times(n\times r)^T\) 的 reduce SVD。

full SVD 有着如下效果：

\(U\) 的前 \(r\) 列是 \(A\) 列空间的单位正交基。
\(U\) 的后 \(m-r\) 列是 \(A\) 零空间的单位正交基。
\(V\) 的前 \(r\) 列是 \(A^T\) 列空间的单位正交基。
\(V\) 的后 \(n-r\) 列是 \(A^T\) 零空间的单位正交基。

SVD 的应用：

定义矩阵的 Frobenious Norm \(\|M\|_F=\sqrt{\sum\limits_{i,j}m_{i,j}^2}=\sqrt{\tr M^TM}\)。将 \(M\) 奇异值分解后，会发现 \(\|M\|_F^2\) 其实就是 \(A^TA\) 奇异值平方和，也即 \(A^TA\)、\(AA^T\) 共有的一组特征值之和，也就是 trace。

令 \(A_h\) 为所有 rank 为 \(h\) 的矩阵中，与 \(A\) 差的 Frobenious Norm 最小的那个矩阵。

声称，将 \(S\) 的元素重排使得奇异值从左上到右下递减后，\(A_h\) 可以由 \(U\) 的前 \(h\) 列、\(S\) 的左上角 \(h\times h\)、\(V\) 的前 \(h\) 列的转置三者相乘得到。【Eckart-Young Theorem】

事实上，\(A_h\) 不仅是差 F-norm 最小的矩阵，同时也是 2-norm 最小的矩阵，其中 \(\|A\|_2=\max\limits_{\|\bf x\|=1}\|A\bf x\|\) 即最大拉伸比例。通过将 \(\bf x\) 在 \(\bf v\) 上分解，易知 2-norm 即为 \(\sigma_1\)。

记 \(\sigma_i(X)\) 为矩阵 \(X\) 的第 \(i\) 大奇异值。则：

对于一切 rank 为 \(h\) 的矩阵 \(M\)，声称 \(\sigma_{i+h}(A)\leq\sigma_i(M-A)\)。

若 \(M\) 的秩为 \(h\)，则其零空间的秩为 \(n-h\)。于是 \(\text{Null}(M)\cap\text{Span}\{\bf v_1,\dots,\bf v_{h+1}\}\) 必然不可能仅含零向量。取其中的非零向量 \(\omega\)，则

\[\|A\omega\|=\|(A-M)\omega\|\leq\sigma_1(A-M)\|\omega\| \]
\[\|A\omega\|^2=\sum_{i=1}^{h+1}\sigma_i^2(\bf v_i^T\omega)^2 \\\geq\sigma_{h+1}^2\sum_{i=1}^{h+1}(\bf v_i^T\omega)^2 \\=\sigma_{h+1}^2(A)\|\omega\|^2 \]
于是 \(\sigma_1(A-M)\geq\sigma_{h+1}(A)\)。归纳可得对于一切的 \(i\) 与 \(h+i\) 均成立。

然后知 \(A_h\) 取到下界，因为 \(A-M\) 的奇异值集合即为 \(h+1\) 以后的奇异值集合，而取 \(M\) 为 \(A_h\) 时恰取到该集合。

PCA 问题：对于 \(\R^m\) 中 \(\bf x_1,\dots,\bf x_n\) 共 \(n\) 个点，找到位于 \(k\) 维子空间的 \(\tilde{\bf x}_1,\dots,\tilde{\bf x}_n\)，最小化 \(\sum\|\bf x_i-\tilde{\bf x}_i\|^2\)。

第一步是把所有 \(\bf x_i\) 减去平均值，使得其靠近中心。

然后构建如下的算法：

找到单位球上 \(\bf v_1\)，最大化 \(\bf v_1\) 与所有 \(\bf x_i\) 的点积的平方和。
找到单位球上 \(\bf v_2\)，垂直于 \(\bf v_1\)，最大化点积平方和。
……
每一步，在单位球上新找一个向量，垂直于之前所有向量，并最大化点积平方和。
如果进行到某一步增量为零，则当前子空间已经覆盖全体 \(\bf x_i\)，算法终止。

该算法与 SVD 等价。

事实上，算 PCA 的方法，即为取出 \(\bf v_1,\dots,\bf v_k=V_k\) 然后计算 \(AV_k\) 即得那些与 \(A\) 中点距离平方和最小的子空间。

Power Method 提供求 \(\bf v\) 的方法。已知 \(B=A^TA=\sum\sigma_i^2\bf v_i\bf v_i^T\)，则当 \(\bf x=\sum c_i\bf v_i\) 时， \(B^k\bf x=\sum\sigma_i^{2k}c_i\bf v_i\)。当 eigen gap \(\sigma_1-\sigma_2\) 足够大时，可以近似视作 \(\sigma_1^{2k}c_i\bf v_i\)。

Theorem 3.11: 若 \(|\bf x\cdot\bf v_1|\geq\delta>0\)，则令 \(V\) 为 \(A\) 的 right singular vector 中那些对应奇异值大于 \((1-\epsilon)\delta\) 的张成的子空间，则令 \(\bf w\) 为 \(k=\dfrac{\ln(1/\epsilon)}{2\epsilon}\) 次【事实上，\(k\) 取最大的满足 \(\sigma_1\dots\sigma_k\geq(1-\epsilon)\sigma_1\) 的 \(k\)】迭代后的单位向量，即

\[\bf w=\dfrac{(A^TA)^k\bf x}{\|(A^TA)^k\bf x\|} \]

则 \(\bf w\) 垂直于 \(V\) 的分量模长不超过 \(\epsilon\)。

或者，最准确的表述为，\(V\) 为那些大于 \((1-\epsilon_1)\sigma_1\) 右奇异向量张成线性空间，则 \(k\) 取到 \(O(\dfrac{\ln(1/\epsilon_2\delta)}{\epsilon_1})\) 即可满足垂直分量模长不超过 \(\epsilon_2\)。

community detection：同一个 community 的以 \(p\) 的概率连边，非同一个 community 的以 \(q\) 概率连边，已知 \(p>q\)。

已知 \(p,q\) 时，划分 community 的方法，为：

已知 \(\rank E(A)=2\)，且 \(E(A)\) 的 \(\sigma_1=\dfrac{p+q}2n,\bf v_1=[1,\dots,1]\)；\(\sigma_2=\dfrac{p-q}2n,\bf v_2=[1,\dots,1,-1,\dots,-1]\)。那么，算 \(\bf v_2\) 即可 detect。事实上，3-community 算 \(\bf v_3\)，……。错误数目为 \(\#\text{mistakes}\leq\dfrac1{\mu^2},\mu=\min(q,p-q)\)，是与 \(n\) 无关的值。

放两个意义不明的结论

Thm.: [Davis-Khan] let \(A=\sum\lambda_i\bf u_i\bf u_i^T,\hat A=\sum\hat\lambda_i\hat{\bf u}_i\hat{\bf u}_i^T\) with \(A,\hat A\) real-symmetric, \(\lambda_1\geq\lambda_2\geq\dots\).

If \(\lambda_i-\lambda_{i-1}\geq\delta,\lambda_{i+1}-\lambda_i\geq\delta\), then \(\min_{\epsilon\in[-1,1]}\sin(\bf u_i\cdot\hat{\bf u}_i)\leq\dfrac{\|\hat A-A\|_{op}}6\).

Where, Frobinious norm has \(\|A\|_F=\sum\sigma_i^2\), and \(\|A\|_{op}=\max\sigma_i\).

This is to say, close matrices have close eigen vectors.

Another Theorem shows the bound of \(\|\cdot\|_{op}\).

With high probability, \(\|A-E(A)\|_{op}=O(\sqrt n)\), hence \(\|\bf v_2(A)-\bf v_2(E(A))\|\leq\dfrac{\sqrt n}{n\mu}\).

III.Markov 链

一个有限 Markov 链是一组概率分布 \(X_1,X_2,\dots\)，满足 \(P(X_{i+1}=y\mid P_{1}=x_1,\dots,P_i=x_i)=P(X_{i+1}=y\mid P_i=x_i)=P_{x,y}\)。有限并非 Markov 链的长度有限，而是状态集合 \(\Omega\) 是有限集。

概率分布向量往往被认为是行向量。\(P\) 的每一行都是一个概率分布向量。

\(P\) 满足好性质：

\(\lambda_1=1,\bf v_1=\bf1\)。
若 \(\lambda\) 是 \(P\) 特征值，则 \(\lambda^k\) 是 \(P^k\) 特征值；因为一切的 \(P^k\) 均为 Markov 矩阵，而显然必有 \(|\lambda|\leq\sum P_{i,j}=n\)，所以须有 \(|\lambda|\leq1\)。
在 \(P\) 是连通无向图随机游走矩阵时，因为无向图随机游走矩阵是 \(D^{-1}A\)，其相似于 \(D^{-0.5}AD^{-0.5}\)，后者因为 \(A\) 是对称矩阵所以亦是对称矩阵，对称矩阵有实特征值，所以连通无向图随机游走矩阵有 \(1=\lambda_1\geq\dots\geq\lambda_n\geq-1\)；注意其不一定正定。

取 \(\bf a(t)=\dfrac1t\sum\bf x(t)\)，则由 Cauchy 引理 \(\bf a(t)\) 必然收敛，且易知 \(\bf a\) 满足 \(\bf aP=\bf a\)。

不易知。

首先介绍一种证明 unique 的方法。

考虑 \(n\times(n+1)\) 矩阵 \([P-I,\bf 1]\)。求其零空间：易知 \([1,1,\dots,1,0]\) 是零空间中元素。假设 \([x_1,\dots,x_n,\alpha]\) 亦是零空间中元素。

若 \(x_1,\dots,x_n\) 全同，则 \([0,\dots,0,\alpha]\) 是零空间中元素，推出 \(\alpha=0\)，不合法。否则不全同，考虑其中 \(\arg\max\) 集合。则 \(\arg\max\) 中必然有一个会被非 \(\max\) 的元素指向（否则就不 irreducible 即强连通，或不全同了）而易验证此时意味着其不可能是零空间元素。

然后知 \([P-I,\bf1]\) 的零空间维数为 \(1\)，秩为 \(n\)，于是 \(P-I\) 秩至少为 \(n-1\)，\(\pi\) 存在则必唯一。

同样的方法可以用于证明，\(\bf a\) 收敛至合法的 \(\pi\)。取 \(\bf b(t)=\bf a(t)(P-I)\)，则 \(\bf b(t)=\dfrac1t(\bf x(t)-\bf x(0))\to\bf 0\)。取 \(B\) 为 \([P-I,\bf 1]\) 删去第一列得到的矩阵，则其必然可逆。取 \(\bf c(t)\) 为 \(\bf b(t)\) 删去第一元素得到的向量，则 \(\bf a(t)B=[\bf c(t),1]\)，有

\[\pi=\lim_{t\to\infty}\bf a(t)=\lim_{t\to\infty}[\bf c(t),1]B^{-1}=[0,\dots,0,1]B^{-1} \]
易知其所有项都非负，于是 \(\pi\) 存在且唯一。

但是问题是，是否存在 \(\pi P=\pi\) 的 stationary distribution？答曰：必然存在，且 connected 时唯一。

存在性因为 \(P\) 映射是凸集到自身的连续映射，由不动点定理必然存在不动点。

唯一性，则须证明 \(P-I\) 的行零空间维数恰为 \(1\)。

假设 \(hP=P\)，则令 \(h(m)\) 是 \(\arg\max\) 且等于 \(M\)，则走一步得到所有能到 \(m\) 的全得是 \(M\)，最终得到 \(m\) 所在连通块必须全等于 \(M\)，而因为 connected 所以连通块唯一。

connected 指对于一切 \(x,y\)，\(x\) 可以在有限步内到 \(y\)。

通过 \(\hat P(x,y)=\dfrac{\pi(y)P(y,x)}{\pi(x)}\) 可以定义一个 Markov Chain 的 reverse。如果 MC 的 reverse 等于自身，则称这个 MC 是 (time) reversble 的。

aperiodic，当且仅当所有环长 \(\gcd\) 为 \(1\)。periodic 的场合，\(\bf p(t)\) 不一定收敛。

假如发现 \(\pi(x)P(x,y)=\pi(y)P(x,y)\)，则这同时推出 \(P\) 是 reversible 和 \(\pi\) 是 stationary distribution。这可以被用于构造性地求 sta-dis。

MCMC 是用于解决这样的问题，对于某个 \(\Omega\)、\(\Omega\) 上函数 \(f\)、\(\Omega\) 上的一个概率分布 \(\bf p\)，求出 \(E(f)=\sum\limits_{x\in\Omega}f(x)\bf p(x)\)；若 \(\Omega\) 过大（例如，\(\Omega=[0,n-1]^d\)），则枚举 \(\Omega\) 中所有东西是高复杂度的。此时，可以构造 MC \(P\) 使得 \(P\) 的 sta-dis 恰为 \(\bf p\)，这样之后因为线性性，所以可以取任一初态 \(\bf x\)，然后用 \(\bf x\) 在 MC 上跑并求 \(\bf a=\dfrac1t\sum\bf x\) 然后用 \(f(\bf a)\) 拟合 \(E(f)\)。

现在问题是如何构建这样的 \(P\)。显然，构建 \(P\) 的方法并不唯一，且 \(P\) 总是要求 \(f(\bf xP^t)\) 是好算的。有两种可行的 \(P\) 构建法：

Metropolis-Hasting 方法：其任取一张图 \(G\)，令 \(r\) 为其上最大度数，然后 \(p_{i,j}=\dfrac1r\min(1,\dfrac{p_j}{p_i})\)，\(p_{i,i}=1-\sum_{j\neq i} p_{i,j}\)。此时，\(p_ip_{i,j}=\dfrac1r\min(p_i,p_j)=p_jp_{j,i}\)。选择合适的 \(G\) 可以让转移简便。例如，当 \(\Omega=[0,n-1]^d\) 即可令 \(G\) 上的边为编辑距离恰为 \(1\) 的那些点。例如，算最大割，则状态数是 \(\{0,1\}^n\)，每次调整随机扔一个到另一侧，即为模拟退火。
Gibbs' Sampling: 假设状态空间是 \(\{0,\dots,n-1\}^d\) 的子集，则两个编辑距离恰差 \(1\) 的 \(x_1,\dots,x_d\) 与 \(y_1,\dots,y_d\) 满足 \(P(x,y)=\dfrac1d\dfrac{\bf p(y)}{\sum\limits_{z与x恰和y在同一位上不同}\bf p(z)}\)。也即，\(x,y\) 在某一位上不同，则所有这一位上不同的 \(z\) 共同做分母，则每一维上所有东西的和为 \(\dfrac1d\)，所有和恰为 \(1\)。

两个 distribution 的 Total Variation Distance

\[d_{TV}(\mu,\nu)=\max_{A\sube\Omega}|\mu(A)-\nu(A)| \]

易知 \(d_{TV}(\mu,\nu)=\dfrac12\sum|\mu(x)-\nu(x)|\)。

另一种结果为，考虑 \(J\) 为一切 \(\mu,\nu\) 的 joint distribution（在 \(\Omega\) 有限的时候，\(J\) 可以记作一个矩阵，矩阵的行和与列和由 \(\mu,\nu\) 确定），则

\[d_{TV}(\mu,\nu)=\min_J(\Pr\limits_{(x,y)\sim J}[x\neq y]) \]

这种分析被用在 Coupling 的场合。

令 \(P^t(X,\cdot)\) 为自初态 \(X\) 走 \(t\) 步的 distribution，即 \(XP^T\)。令 \(P^t(x,\cdot)\) 为自 \(x\) 单点出发的 distribution。定义 \(d(t)=\max\limits_{x\in\Omega}|P^t(x,\cdot)-\pi|_{TV}\)，\(\epsilon\)-mixing time 为满足 \(d(t)<\epsilon\) 的最小 \(t\)。而，另一种定义的 \(t_{avg}\) 则是对于一切初态 \(\bf x(0)\)（注意，这里的初态不一定是单点分布），要求 \(|\bf a(t)-\pi|_{TV}<\epsilon\)。\(t_{avg}\) 与 \(t_{mix}\) 在 aperiodic 的场合类似：此时必有 \(t_{mix}<t_{avg}\)。

有一个性质是，不同的 \(t_{mix}(\epsilon)\) 之间，满足给定一个 \(t_{mix}(\epsilon_0)\) 则可以用于 bound 所有的 \(t_{mix}(\epsilon)\)。这是因为，定义 \(\bar d(t)=\max\limits_{x,y\in\Omega}|P^t(x,\cdot)-P^t(y,\cdot)|\)，则易知 \(d(t)\leq\bar d(t)\leq2d(t)\)，且 \(\bar d(t)\) 满足 \(\bar d(s+t)\leq\bar d(s)\bar d(t)\) 的好性质，因为

\[P^{s+t}(x,z)=\mathop E\limits_{X_s}(P^t(X_s,z))&(X_s\sim P^s(x,\cdot)) \\|P^{s+t}(x,\cdot)-P^{s+t}(y,\cdot)|_{TV} \\=\mathop E\limits_{X_s}|P^t(X_s,\cdot)-P^t(Y_s,\cdot)|_{TV} \\\leq\Pr(X_s\neq Y_s)\bar d(t) \\\leq\bar d(s)\bar d(t) \]

这是 mixing time 最朴素的定义。

\(\bf xP^t\) 其实是在作 Power Method。可以定义 \(u,v\) 的内积 \(\lang u,v\rang=\sum\pi(i)u(i)v(i)\)，或者是 \(\lang uD^{0.5},vD^{0.5}\rang\)，其中 \(D^{0.5}\) 是一个线性变换，为了让 \(P\) 所有的特征向量 orthonormal。

需要 \(\dfrac{\ln(1/c\epsilon)}\delta\) 步才能让 \(P^t(x,\cdot)\) 垂直于 \(\pi\) 的部分至多为 \(\epsilon\)，其中 \(\delta\) 是 eigengap；注意因为 \(P\) 并非正定，所以 \(\delta\) 其实是 \(\lambda_1-\max(|\lambda_2|,|\lambda_n|)\)。

有 \(t_{mix}(\epsilon)=O(\dfrac{\ln(1/\epsilon\pi^*)}\delta)\)，其中 \(\pi^*\) 是 sta-dis \(\pi\) 中的最小值。此处可以看到为何 \(t_{mix}\) 的初态只能是单点态，而 \(t_{avg}\) 可以是任一态：单点态是为了 \(\pi^*\)。

若无向图无边权，则 \(\pi^*\) 至少为 \(1/m\)，而 \(m=O(n^2)\)，因此分子必为 \(\ln n\)，是好的。

若 \(\lambda_n=-1\)，此时 \(t_{mix}\) 不一定存在；分析可得，仅在二分图上出现 \(\lambda_n=-1\)，而二分图显然不可能存在 \(t_{mix}\)。事实上，\(\lambda_n\) 衡量一张图有多像二分图。

若 \(\lambda_2=1\)，则图并非强连通。

定义 normalized conductance \(\Phi(S)=\dfrac{\sum\limits_{x\in S,y\in\bar S}\pi(x)P_{x,y}}{\min(\pi(S),\pi(\bar S))}\)，\(\Phi\) 则是全体非空非满的 \(\Phi(S)\) 的 \(\min\)。有 \(t_{avg}(\epsilon)=O(\dfrac{\ln(1/\pi^*)}{\Phi^2\epsilon^3})\)。conductance 分析仅适用于无向图的场合：而前述的谱分解分析适用于一切场合。

Cheeger 不等式连结了 \(\Phi\) 和 \(\delta\)：它指出 \(\dfrac\delta2\leq\Phi\leq\sqrt{2\delta}\)。但是，注意此处的 \(\delta=\lambda_1-\lambda_2\)，与谱分解中的 \(\delta\) 不完全相同。当 \(P\) 正定时，两个 \(\delta\) 相等；而强制令游走时以一半概率留在原地后，得到的新 MC 与原 MC 有着相同的 sta-dis，且由 Gerschgorin’s Theorem，新 MC 必然正定。

1-D Lattice, \(\Phi=\Omega(1/n)\)。2-D，\(\Phi=\Omega(1/n)\)。k-D，\(\Phi=\Omega(1/kn)\)，此时 \(t_{avg}=O(d^3n^2\ln n)\)。

无权图总是有 \(\Phi=\Omega(1/m)\) 的近似，因此 \(t_{avg}=O(n^4\ln n)\)，但是这个界非常松。

Coupling 是分布列 \(X_1,\dots\) 与 \(Y_1,\dots\)，初态均为单点，且满足若它们在某处游走到同一点，则之后所有时刻均共同游走。注意，coupling 仅仅限制 \(X_{i+1}\sim P(x_i,\cdot),Y_{i+1}\sim P(y_i,\cdot)\)，没有限制 \(X_{i+1},Y_{i+1}\) 的 joint distribution。因此接下来会适当地选取合适的 \(J\) 处理。

令 \(d_{x,y}(t)=|P^t(x,\cdot)-P^t(y,\cdot)|\)，则 \(\bar d(t)=\max\limits_{x,y\in\Omega}d_{x,y}(t)\)。且，\(d(t)\leq d_{x,y}(t)\leq2d(t)\)。

令 \(\tau\) 为初次相遇时刻。则当 \(X_0=x,Y_0=y\) 时，

\[d_{x,y}(t)\leq\Pr\limits_{(X_t,Y_t)\sim J}[\tau>t] \]

后者由 Markov，\(\leq\dfrac{\mathop E\limits_{(X_t,Y_t)\sim J}(\tau)}t\)。于是，可以取出任一一个 \(J\)，则 \(t_{mix}\leq\max\limits_{x,y\in\Omega}\mathop E\limits_{(X_t,Y_t)\sim J}(\tau)\)。

这可以被用于更精细地 bound 一些界。例如，1-D Lattice 的场合，令 \(J\) 的 distribution 为，\(\dfrac12\) 的概率 \(x\) 动 \(y\) 不动，\(\dfrac12\) 的概率 \(y\) 动 \(x\) 不动，则 \(x,y\) 各自均分别满足随机游走的朴素规则，然后算二者初遇期望是容易的。此处可以得到 \(n^2\) 的更优界，比使用 conductance 的 \(n^2\log n\) 更牛。

hypercube 随机游走同理：以 \(\dfrac12\) 的概率停留，\(\dfrac1{2n}\) 的概率翻转某一位，可以等价于随机一位，然后以 \(\dfrac12\) 的概率将 \(x,y\) 这一位上同赋为 \(0\) 或 \(1\)。可知 \(t_{mix}=O(n\log n)\)。

IV.杂项

Hoeffding 的证明：

由 Markov，\(\Pr(Z>a)=\Pr(e^{sZ}>e^{sa})\leq e^{-sa}E(e^{sz})\)。则 \(\Pr(X-\mu>\epsilon)\leq e^{-s\epsilon}E(e^{s(X-\mu)})=e^{-s\epsilon}\prod E(e^{s(x_i-E(x_i))})\)

Lemma: 若 \(E(V)=0\) 且 \(a\leq V\leq b\)，则 \(E(e^{sv})\leq e^{s^2(b-a)^2/8}\)，于是令 \(s=\dfrac{4\epsilon}{\sum(b_i-a_i)^2}\) 可知 \(\Pr(X-\mu>\epsilon)\leq\exp(\dfrac{-2\epsilon^2}{\sum(b_i-a_i)^2})\)，也即 Hoeffding。

现在问题是 Lemma 如何证。首先由 \(\exp\) 的凸性知

\[E(e^{sv})\leq\dfrac b{b-a}e^{sa}-\dfrac a{b-a}e^{sb} \]

然后令 \(u=s(b-a)\)，\(p=\dfrac b{b-a}\)，定义 \(\psi(u)=\ln(pe^{sa}+(1-p)e^{sb})=(p-1)u+\ln(p+(1-p)e^u)\)，对其在 \(0\) 处 Lagrange 余项 Taylor 展开得到 \(\psi(u)=\psi(0)+\psi'(0)u+\dfrac12\psi''(\xi)u^2\)，前两者为 \(0\)，于是试证明 \(\psi''(\xi)\leq1/4\)。列二阶导然后处理即可。

posted @ 2024-06-11 13:31 Troverld 阅读(41) 评论(1) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Troverld

博客渲染出问题了那是博客的锅，本人什么都不会做的。

浅论殖民者对父系社会在智利地区发展的影响

I.高维几何

II.奇异值分解

III.Markov 链

IV.杂项

公告