浅论殖民者对父系社会在智利地区发展的影响
似了喵。整理这 b 玩意屁用没有捏。
I.高维几何
省流:
- 体积集中于 shell。
- 体积集中于 equator。
- Gau-Ann-Thm: 高维 Gaussian 分布集中于 \(\sqrt d\) 附近。
- Random Projection Theorem: 随机取向量并投影,大概率保距离。
\((1-\epsilon)\) 的部分,体积为 \((1-\epsilon)^d\leq e^{-\epsilon d}\)。因此,至少 \(1-e^{-\epsilon d}\) 的体积集中于 \(\epsilon\) 的 shell 上。特别地,\(r\)-球的绝大多数体积集中于 \(\dfrac rd\)-shell 中。
积分可得,\(V(d)=\dfrac{A(d)}{d}\)。事实上,\(A(d)=\dfrac{2\pi^{d/2}}{\Gamma(d/2)},V(d)=\dfrac{2\pi^{d/2}}{d\Gamma(d/2)}\)。特别地,\(\Gamma(1)=1,\Gamma(1/2)=\sqrt\pi,\Gamma(n+1)=n\Gamma(n)\)。
在单位球中,\(1-\dfrac2ce^{-c^2/2}\) 的球体体积满足 \(|x_1|\leq\dfrac c{\sqrt{d-1}}\),即集中于赤道。证明靠嗯积。
单位球上随机抽 \(\bf x_1,\dots,\bf x_n\),以 \(1-O(1/n)\) 的概率均成立:
- \(|\bf x_i|\geq1-\dfrac{2\ln n}d\);
- \(|\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}\)。
证明使用 Union Bound。
Spherical Gaussian: \(p(\bf x)=\dfrac1{(2\pi)^{d/2}}\exp(-\dfrac12\sum x_i^2)\)。【这个是 \(N(\bf 0,I_d)\) 的 PDF】
从球面随机 gen 点的方式,是用 sph-gau 随机 gen 点然后将其 normalize;从球内随机 gen 点的方式,是生成球面解然后将其抹开到整个球内。
Gau-Ann-Thm.: 当 \(X\sim N(\bf 0,I_d)\) 时,对于一切 \(\beta\leq\sqrt d\),至多 \(3e^{-c\beta^2}\) 的概率不落在 \(\sqrt d\pm\beta\) 的 annulus 里面。
证明:满足存在 \(k>0\) 使得 \(\Pr(|X|>t)\leq2\exp(-t^2/k^2)\) 的变量被称作 Sub-Gau 的变量。Sub-Gau 的变量可以定义 Sub-Gau-Norm \(\|\cdot\|_{\psi_2}\) 为 \(E(X^2/t^2)\leq2\) 的 \(t\) 下界;则对于独立的 Sub-Gau 们,存在 Hoeffding 的扩展
\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-\dfrac{ct^2}{\sum\|X_i\|_{\psi_2}^2}) \]Sub-Exp 的变量满足 \(\Pr(|X|\geq t)\leq2\exp(-t/K)\)。Sub-Exp-Norm \(\|\cdot\|_{\psi_1}\) 为 \(E(x/t)\leq2\) 的 \(t\) 下界。
对于期望均为零、独立的 Sub-Exp 的变量们,有 Bernstein 定理
\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-c\min\left\{\dfrac{t^2}{\sum\|X_i\|_{\psi_1}^2},\dfrac t{\max\|X_i\|_{\psi_1}}\right\}) \]Gau 是 Sub-Gau 的,因此 Gau 方是 Sub-Exp 的。若 \(X\sim(0,\sigma^2)\),则 \(\|X^2\|_{\psi_1}=\sigma^2\)。
对 \(\Pr(|\sum X_i^2|-\sum E(X_i^2))\) 应用 Bernstein 即可。
同时有扩展 Hoeffding,适用于独立、零期望的随机变量们。
还是列一下几个朴素的不等式罢。
Markov:对于 非负 的 \(x\) ,\(\Pr(x\geq c)\leq\dfrac{E(x)}c\)。其也可以被应用于变式:对于 \(r\) ,\(\Pr(x\geq c)\leq\dfrac{E(x^r)}{c^r}\)。
Chebyshev:\(\Pr(|X-E(X)|>c\sigma(X))<\dfrac1{c^2}\)。证明对 \((X-E)^2\) 用 Mar。
Chenoff: \(\Pr(X\geq(1+\delta)\mu)\leq\left(\dfrac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu\)。\(\Pr(X\leq(1-\delta)\mu)\leq\left(\dfrac{e^{-\delta}}{(1-\delta)^{1-\delta}}\right)^\mu\)。同时有推论:\(\Pr(X\geq(1+\delta)\mu)\leq e^{-1/3\delta^2\mu}\),\(\Pr(X\leq(1-\delta)\mu)\leq e^{-1/2\delta^2\mu}\)。\(X\) 是若干次掷硬币(Bernoulli)组成。
Hoeffding 对于 \(X_i\in(a,b)\),有 \(\Pr(|\sum X_i-E(X_i)|\geq t)\leq2\exp(\dfrac{-2t^2}{n(b-a)^2})\)。在其不同分布时,也有 \(\Pr(|\sum X_i-E(X_i)|\geq t)\leq2\exp(\dfrac{-2t^2}{\sum(b_i-a_i)^2})\)。事实上,如果把内层的绝对值撤掉,那么右侧外部的 \(2\) 亦可撤掉。
大数定律:如果 \(x_i\) 均是 \(X\) 的取样,则 \(\Pr\left(|\dfrac1n\sum x-E(X)|\geq\epsilon\right)\leq\dfrac{V(X)}{n\epsilon^2}\),本质也是 Cheby。
Random Projection Theorem:
假如要将 \(d\) 阶数据压缩为 \(k\) 阶数据,则用 Spherical Gaussian 生成 \(k\) 个随机向量 \(\bf u_1,\dots,\bf u_k\) 并计算其在每个向量方向投影长度,构成一个 \(k\) 阶数据。以大概率地,这种压缩有 \(\|f(\bf x)\|\approx\sqrt k\|\bf x\|\)。具体而言,
证明:不妨令 \(\|\bf v\|=1\),则 \(\bf u_i\cdot\bf v\sim N(0,1)\),则 \(\|f(\bf v)\|\sim N(\bf 0,I_k)\),应用 Gau-Ann-Thm 即证。应用 Union Bound 可以得到 JL Lemma,即当 \(k\geq\dfrac3{c\epsilon^2}\) 以 \(1-\dfrac3{2n}\) 的概率,
Random Projection 压缩是保距离的,但是对 \(k\) 有要求,且不一定是最优压缩,这一点与 PCA 压缩不同。
分离两个 distribution。如果要分离两个 unit Gaussian(annulus 在 \(\sqrt d\) 附近的 Gaussian),Gaussian 的 center 距离至少为 \(\Omega(d^{1/4}\text{polylog}(n))\);如果要分离两个 unit ball,因为 unit Gaussian 其实和 \(\sqrt d\)-shell 差不多,而 unit ball 和 \(1\)-shell 差不多,因此分离 unit ball 需要的距离直接等比缩小为 \(\Omega(d^{-1/4}\text{polylog}(n))\) 足矣。
II.奇异值分解
有一个 \(m\times n\) 矩阵,满足 \(\rank A\ll m,n\)。试图将其拆成 \(A=USV^T=(m\times r)(r\times r)(n\times r)^T\),满足:
- \(U,V\) 是正交单位 orthonormal 阵,即满足 \(U^TU=V^TV=I_R\),即 \(U,V\) 的列向量都是单位向量且彼此正交。
- \(S\) 是对角矩阵 \(\text{diag}(\sigma_1,\dots,\sigma_r)\),其中 \(\sigma\) 被称作 singular value。
- \(U\) 中列向量被称作 left singular vectors,\(V\) 中被称作 right singular vectors。
对于对称阵 \(M=M^T\),其必然存在 orthonormal 的特征向量 \(\bf u_1,\dots,\bf u_n\),于是有 \(MU=U\Lambda\)。orthonormal 矩阵有着 \(U^{-1}=U^T\) 的优秀性质,所以 \(M=U\Lambda U^T\)。
对于对称半正定的 \(M\),有 \(\Lambda\) 中的所有 \(\lambda\geq0\),于是令 \(X=U\sqrt{\Lambda}\),则 \(M=XX^T\)。
进一步,对于二次型 \(f_M(\bf y)=\bf y^TM\bf y\),有 \(f_M(\bf y)=\|X^T\bf y\|^2\)。
假设 \(A=USV^T\),则 \(A^TA=VS^2V^T,AA^T=US^2U^T\)。于是,一种可行的想法是,令 \(V\) 成为 \(A^TA\) 的特征向量集合,\(U\) 成为 \(AA^T\) 的特征向量集合,此时如果 \(A^TA\) 和 \(AA^T\) 具有相同的特征值分布,则这构成 \(A\) 的 SVD。
若 \(\bf v\) 是 \(A^TA\) 的特征向量,即 \(A^TA\bf v=\lambda\bf v\),则 \(AA^T(A\bf v)=A(A^TA\bf v)=A\lambda\bf v=\lambda(A\bf v)\),于是 \(A\bf v\) 是 \(AA^T\) 的特征向量。
有 \(\|A\bf v\|^2=\bf v^TA^TA\bf v=\lambda\|\bf v\|^2\)。因此取一组 orthonormal 的 \(\bf v\) 后,通过令 \(S=\sqrt\Lambda\), \(U=AVS^{-1}\) 即可得到 orthonormal 的 \(\bf u\) 集合。
通过此法定义的 SVD,有:\(U=(m\times n),S=(n\times n),V=(n\times n)\)。
这个东西没有对称性。(在 \(m\geq n\) 的场合)可以将 \(U,S\) 人工拉长为 \(U=(m\times m),S=(m\times n)\) 来保证对称性,此时的分解称作 full SVD。在 \(m<n\) 的场合应该反过来选择从 \(U\) 生成 \(V\) 来得到 full SVD。
注意 full SVD 的 \(A=USV^T\) 其实展开来是 \(A=\sum\limits_{i=1}^{\min(n,m)}\sigma_i\bf u_i\bf v_i\) 的式子;实对称矩阵 \(AA^T\) 的非零特征值数目等于其秩,而 \(\rank(AA^T)=\rank(A)\),因此可以剪裁掉 \(S\) 中那些零特征值式对应的部分,得到 \(A=(m\times r)\times(r\times r)\times(n\times r)^T\) 的 reduce SVD。
full SVD 有着如下效果:
- \(U\) 的前 \(r\) 列是 \(A\) 列空间的单位正交基。
- \(U\) 的后 \(m-r\) 列是 \(A\) 零空间的单位正交基。
- \(V\) 的前 \(r\) 列是 \(A^T\) 列空间的单位正交基。
- \(V\) 的后 \(n-r\) 列是 \(A^T\) 零空间的单位正交基。
SVD 的应用:
定义矩阵的 Frobenious Norm \(\|M\|_F=\sqrt{\sum\limits_{i,j}m_{i,j}^2}=\sqrt{\tr M^TM}\)。将 \(M\) 奇异值分解后,会发现 \(\|M\|_F^2\) 其实就是 \(A^TA\) 奇异值平方和,也即 \(A^TA\)、\(AA^T\) 共有的一组特征值之和,也就是 trace。
令 \(A_h\) 为所有 rank 为 \(h\) 的矩阵中,与 \(A\) 差的 Frobenious Norm 最小的那个矩阵。
声称,将 \(S\) 的元素重排使得奇异值从左上到右下递减后,\(A_h\) 可以由 \(U\) 的前 \(h\) 列、\(S\) 的左上角 \(h\times h\)、\(V\) 的前 \(h\) 列的转置三者相乘得到。【Eckart-Young Theorem】
事实上,\(A_h\) 不仅是差 F-norm 最小的矩阵,同时也是 2-norm 最小的矩阵,其中 \(\|A\|_2=\max\limits_{\|\bf x\|=1}\|A\bf x\|\) 即最大拉伸比例。通过将 \(\bf x\) 在 \(\bf v\) 上分解,易知 2-norm 即为 \(\sigma_1\)。
记 \(\sigma_i(X)\) 为矩阵 \(X\) 的第 \(i\) 大奇异值。则:
对于一切 rank 为 \(h\) 的矩阵 \(M\),声称 \(\sigma_{i+h}(A)\leq\sigma_i(M-A)\)。
若 \(M\) 的秩为 \(h\),则其零空间的秩为 \(n-h\)。于是 \(\text{Null}(M)\cap\text{Span}\{\bf v_1,\dots,\bf v_{h+1}\}\) 必然不可能仅含零向量。取其中的非零向量 \(\omega\),则
\[\|A\omega\|=\|(A-M)\omega\|\leq\sigma_1(A-M)\|\omega\| \]\[\|A\omega\|^2=\sum_{i=1}^{h+1}\sigma_i^2(\bf v_i^T\omega)^2 \\\geq\sigma_{h+1}^2\sum_{i=1}^{h+1}(\bf v_i^T\omega)^2 \\=\sigma_{h+1}^2(A)\|\omega\|^2 \]于是 \(\sigma_1(A-M)\geq\sigma_{h+1}(A)\)。归纳可得对于一切的 \(i\) 与 \(h+i\) 均成立。
然后知 \(A_h\) 取到下界,因为 \(A-M\) 的奇异值集合即为 \(h+1\) 以后的奇异值集合,而取 \(M\) 为 \(A_h\) 时恰取到该集合。
PCA 问题:对于 \(\R^m\) 中 \(\bf x_1,\dots,\bf x_n\) 共 \(n\) 个点,找到位于 \(k\) 维子空间的 \(\tilde{\bf x}_1,\dots,\tilde{\bf x}_n\),最小化 \(\sum\|\bf x_i-\tilde{\bf x}_i\|^2\)。
第一步是把所有 \(\bf x_i\) 减去平均值,使得其靠近中心。
然后构建如下的算法:
- 找到单位球上 \(\bf v_1\),最大化 \(\bf v_1\) 与所有 \(\bf x_i\) 的点积的平方和。
- 找到单位球上 \(\bf v_2\),垂直于 \(\bf v_1\),最大化点积平方和。
- ……
- 每一步,在单位球上新找一个向量,垂直于之前所有向量,并最大化点积平方和。
- 如果进行到某一步增量为零,则当前子空间已经覆盖全体 \(\bf x_i\),算法终止。
该算法与 SVD 等价。
事实上,算 PCA 的方法,即为取出 \(\bf v_1,\dots,\bf v_k=V_k\) 然后计算 \(AV_k\) 即得那些与 \(A\) 中点距离平方和最小的子空间。
Power Method 提供求 \(\bf v\) 的方法。已知 \(B=A^TA=\sum\sigma_i^2\bf v_i\bf v_i^T\),则当 \(\bf x=\sum c_i\bf v_i\) 时, \(B^k\bf x=\sum\sigma_i^{2k}c_i\bf v_i\)。当 eigen gap \(\sigma_1-\sigma_2\) 足够大时,可以近似视作 \(\sigma_1^{2k}c_i\bf v_i\)。
Theorem 3.11: 若 \(|\bf x\cdot\bf v_1|\geq\delta>0\),则令 \(V\) 为 \(A\) 的 right singular vector 中那些对应奇异值大于 \((1-\epsilon)\delta\) 的张成的子空间,则令 \(\bf w\) 为 \(k=\dfrac{\ln(1/\epsilon)}{2\epsilon}\) 次【事实上,\(k\) 取最大的满足 \(\sigma_1\dots\sigma_k\geq(1-\epsilon)\sigma_1\) 的 \(k\)】迭代后的单位向量,即
则 \(\bf w\) 垂直于 \(V\) 的分量模长不超过 \(\epsilon\)。
或者,最准确的表述为,\(V\) 为那些大于 \((1-\epsilon_1)\sigma_1\) 右奇异向量张成线性空间,则 \(k\) 取到 \(O(\dfrac{\ln(1/\epsilon_2\delta)}{\epsilon_1})\) 即可满足垂直分量模长不超过 \(\epsilon_2\)。
community detection:同一个 community 的以 \(p\) 的概率连边,非同一个 community 的以 \(q\) 概率连边,已知 \(p>q\)。
已知 \(p,q\) 时,划分 community 的方法,为:
- 已知 \(\rank E(A)=2\),且 \(E(A)\) 的 \(\sigma_1=\dfrac{p+q}2n,\bf v_1=[1,\dots,1]\);\(\sigma_2=\dfrac{p-q}2n,\bf v_2=[1,\dots,1,-1,\dots,-1]\)。那么,算 \(\bf v_2\) 即可 detect。事实上,3-community 算 \(\bf v_3\),……。错误数目为 \(\#\text{mistakes}\leq\dfrac1{\mu^2},\mu=\min(q,p-q)\),是与 \(n\) 无关的值。
放两个意义不明的结论
Thm.: [Davis-Khan] let \(A=\sum\lambda_i\bf u_i\bf u_i^T,\hat A=\sum\hat\lambda_i\hat{\bf u}_i\hat{\bf u}_i^T\) with \(A,\hat A\) real-symmetric, \(\lambda_1\geq\lambda_2\geq\dots\).
If \(\lambda_i-\lambda_{i-1}\geq\delta,\lambda_{i+1}-\lambda_i\geq\delta\), then \(\min_{\epsilon\in[-1,1]}\sin(\bf u_i\cdot\hat{\bf u}_i)\leq\dfrac{\|\hat A-A\|_{op}}6\).
Where, Frobinious norm has \(\|A\|_F=\sum\sigma_i^2\), and \(\|A\|_{op}=\max\sigma_i\).
This is to say, close matrices have close eigen vectors.
Another Theorem shows the bound of \(\|\cdot\|_{op}\).
With high probability, \(\|A-E(A)\|_{op}=O(\sqrt n)\), hence \(\|\bf v_2(A)-\bf v_2(E(A))\|\leq\dfrac{\sqrt n}{n\mu}\).
III.Markov 链
一个有限 Markov 链是一组概率分布 \(X_1,X_2,\dots\),满足 \(P(X_{i+1}=y\mid P_{1}=x_1,\dots,P_i=x_i)=P(X_{i+1}=y\mid P_i=x_i)=P_{x,y}\)。有限并非 Markov 链的长度有限,而是状态集合 \(\Omega\) 是有限集。
概率分布向量往往被认为是行向量。\(P\) 的每一行都是一个概率分布向量。
\(P\) 满足好性质:
- \(\lambda_1=1,\bf v_1=\bf1\)。
- 若 \(\lambda\) 是 \(P\) 特征值,则 \(\lambda^k\) 是 \(P^k\) 特征值;因为一切的 \(P^k\) 均为 Markov 矩阵,而显然必有 \(|\lambda|\leq\sum P_{i,j}=n\),所以须有 \(|\lambda|\leq1\)。
- 在 \(P\) 是连通无向图随机游走矩阵时,因为无向图随机游走矩阵是 \(D^{-1}A\),其相似于 \(D^{-0.5}AD^{-0.5}\),后者因为 \(A\) 是对称矩阵所以亦是对称矩阵,对称矩阵有实特征值,所以连通无向图随机游走矩阵有 \(1=\lambda_1\geq\dots\geq\lambda_n\geq-1\);注意其不一定正定。
取 \(\bf a(t)=\dfrac1t\sum\bf x(t)\),则由 Cauchy 引理 \(\bf a(t)\) 必然收敛,且易知 \(\bf a\) 满足 \(\bf aP=\bf a\)。
不易知。
首先介绍一种证明 unique 的方法。
考虑 \(n\times(n+1)\) 矩阵 \([P-I,\bf 1]\)。求其零空间:易知 \([1,1,\dots,1,0]\) 是零空间中元素。假设 \([x_1,\dots,x_n,\alpha]\) 亦是零空间中元素。
若 \(x_1,\dots,x_n\) 全同,则 \([0,\dots,0,\alpha]\) 是零空间中元素,推出 \(\alpha=0\),不合法。否则不全同,考虑其中 \(\arg\max\) 集合。则 \(\arg\max\) 中必然有一个会被非 \(\max\) 的元素指向(否则就不 irreducible 即强连通,或不全同了)而易验证此时意味着其不可能是零空间元素。
然后知 \([P-I,\bf1]\) 的零空间维数为 \(1\),秩为 \(n\),于是 \(P-I\) 秩至少为 \(n-1\),\(\pi\) 存在则必唯一。
同样的方法可以用于证明,\(\bf a\) 收敛至合法的 \(\pi\)。取 \(\bf b(t)=\bf a(t)(P-I)\),则 \(\bf b(t)=\dfrac1t(\bf x(t)-\bf x(0))\to\bf 0\)。取 \(B\) 为 \([P-I,\bf 1]\) 删去第一列得到的矩阵,则其必然可逆。取 \(\bf c(t)\) 为 \(\bf b(t)\) 删去第一元素得到的向量,则 \(\bf a(t)B=[\bf c(t),1]\),有
\[\pi=\lim_{t\to\infty}\bf a(t)=\lim_{t\to\infty}[\bf c(t),1]B^{-1}=[0,\dots,0,1]B^{-1} \]易知其所有项都非负,于是 \(\pi\) 存在且唯一。
但是问题是,是否存在 \(\pi P=\pi\) 的 stationary distribution?答曰:必然存在,且 connected 时唯一。
存在性因为 \(P\) 映射是凸集到自身的连续映射,由不动点定理必然存在不动点。
唯一性,则须证明 \(P-I\) 的行零空间维数恰为 \(1\)。
假设 \(hP=P\),则令 \(h(m)\) 是 \(\arg\max\) 且等于 \(M\),则走一步得到所有能到 \(m\) 的全得是 \(M\),最终得到 \(m\) 所在连通块必须全等于 \(M\),而因为 connected 所以连通块唯一。
connected 指对于一切 \(x,y\),\(x\) 可以在有限步内到 \(y\)。
通过 \(\hat P(x,y)=\dfrac{\pi(y)P(y,x)}{\pi(x)}\) 可以定义一个 Markov Chain 的 reverse。如果 MC 的 reverse 等于自身,则称这个 MC 是 (time) reversble 的。
aperiodic,当且仅当所有环长 \(\gcd\) 为 \(1\)。periodic 的场合,\(\bf p(t)\) 不一定收敛。
假如发现 \(\pi(x)P(x,y)=\pi(y)P(x,y)\),则这同时推出 \(P\) 是 reversible 和 \(\pi\) 是 stationary distribution。这可以被用于构造性地求 sta-dis。
MCMC 是用于解决这样的问题,对于某个 \(\Omega\)、\(\Omega\) 上函数 \(f\)、\(\Omega\) 上的一个概率分布 \(\bf p\),求出 \(E(f)=\sum\limits_{x\in\Omega}f(x)\bf p(x)\);若 \(\Omega\) 过大(例如,\(\Omega=[0,n-1]^d\)),则枚举 \(\Omega\) 中所有东西是高复杂度的。此时,可以构造 MC \(P\) 使得 \(P\) 的 sta-dis 恰为 \(\bf p\),这样之后因为线性性,所以可以取任一初态 \(\bf x\),然后用 \(\bf x\) 在 MC 上跑并求 \(\bf a=\dfrac1t\sum\bf x\) 然后用 \(f(\bf a)\) 拟合 \(E(f)\)。
现在问题是如何构建这样的 \(P\)。显然,构建 \(P\) 的方法并不唯一,且 \(P\) 总是要求 \(f(\bf xP^t)\) 是好算的。有两种可行的 \(P\) 构建法:
- Metropolis-Hasting 方法:其任取一张图 \(G\),令 \(r\) 为其上最大度数,然后 \(p_{i,j}=\dfrac1r\min(1,\dfrac{p_j}{p_i})\),\(p_{i,i}=1-\sum_{j\neq i} p_{i,j}\)。此时,\(p_ip_{i,j}=\dfrac1r\min(p_i,p_j)=p_jp_{j,i}\)。选择合适的 \(G\) 可以让转移简便。例如,当 \(\Omega=[0,n-1]^d\) 即可令 \(G\) 上的边为编辑距离恰为 \(1\) 的那些点。例如,算最大割,则状态数是 \(\{0,1\}^n\),每次调整随机扔一个到另一侧,即为模拟退火。
- Gibbs' Sampling: 假设状态空间是 \(\{0,\dots,n-1\}^d\) 的子集,则两个编辑距离恰差 \(1\) 的 \(x_1,\dots,x_d\) 与 \(y_1,\dots,y_d\) 满足 \(P(x,y)=\dfrac1d\dfrac{\bf p(y)}{\sum\limits_{z与x恰和y在同一位上不同}\bf p(z)}\)。也即,\(x,y\) 在某一位上不同,则所有这一位上不同的 \(z\) 共同做分母,则每一维上所有东西的和为 \(\dfrac1d\),所有和恰为 \(1\)。
两个 distribution 的 Total Variation Distance
易知 \(d_{TV}(\mu,\nu)=\dfrac12\sum|\mu(x)-\nu(x)|\)。
另一种结果为,考虑 \(J\) 为一切 \(\mu,\nu\) 的 joint distribution(在 \(\Omega\) 有限的时候,\(J\) 可以记作一个矩阵,矩阵的行和与列和由 \(\mu,\nu\) 确定),则
这种分析被用在 Coupling 的场合。
令 \(P^t(X,\cdot)\) 为自初态 \(X\) 走 \(t\) 步的 distribution,即 \(XP^T\)。令 \(P^t(x,\cdot)\) 为自 \(x\) 单点出发的 distribution。定义 \(d(t)=\max\limits_{x\in\Omega}|P^t(x,\cdot)-\pi|_{TV}\),\(\epsilon\)-mixing time 为 满足 \(d(t)<\epsilon\) 的最小 \(t\)。而,另一种定义的 \(t_{avg}\) 则是对于一切初态 \(\bf x(0)\)(注意,这里的初态不一定是单点分布),要求 \(|\bf a(t)-\pi|_{TV}<\epsilon\)。\(t_{avg}\) 与 \(t_{mix}\) 在 aperiodic 的场合类似:此时必有 \(t_{mix}<t_{avg}\)。
有一个性质是,不同的 \(t_{mix}(\epsilon)\) 之间,满足给定一个 \(t_{mix}(\epsilon_0)\) 则可以用于 bound 所有的 \(t_{mix}(\epsilon)\)。这是因为,定义 \(\bar d(t)=\max\limits_{x,y\in\Omega}|P^t(x,\cdot)-P^t(y,\cdot)|\),则易知 \(d(t)\leq\bar d(t)\leq2d(t)\),且 \(\bar d(t)\) 满足 \(\bar d(s+t)\leq\bar d(s)\bar d(t)\) 的好性质,因为
这是 mixing time 最朴素的定义。
\(\bf xP^t\) 其实是在作 Power Method。可以定义 \(u,v\) 的内积 \(\lang u,v\rang=\sum\pi(i)u(i)v(i)\),或者是 \(\lang uD^{0.5},vD^{0.5}\rang\),其中 \(D^{0.5}\) 是一个线性变换,为了让 \(P\) 所有的特征向量 orthonormal。
需要 \(\dfrac{\ln(1/c\epsilon)}\delta\) 步才能让 \(P^t(x,\cdot)\) 垂直于 \(\pi\) 的部分至多为 \(\epsilon\),其中 \(\delta\) 是 eigengap;注意因为 \(P\) 并非正定,所以 \(\delta\) 其实是 \(\lambda_1-\max(|\lambda_2|,|\lambda_n|)\)。
有 \(t_{mix}(\epsilon)=O(\dfrac{\ln(1/\epsilon\pi^*)}\delta)\),其中 \(\pi^*\) 是 sta-dis \(\pi\) 中的最小值。此处可以看到为何 \(t_{mix}\) 的初态只能是单点态,而 \(t_{avg}\) 可以是任一态:单点态是为了 \(\pi^*\)。
若无向图无边权,则 \(\pi^*\) 至少为 \(1/m\),而 \(m=O(n^2)\),因此分子必为 \(\ln n\),是好的。
若 \(\lambda_n=-1\),此时 \(t_{mix}\) 不一定存在;分析可得,仅在二分图上出现 \(\lambda_n=-1\),而二分图显然不可能存在 \(t_{mix}\)。事实上,\(\lambda_n\) 衡量一张图有多像二分图。
若 \(\lambda_2=1\),则图并非强连通。
定义 normalized conductance \(\Phi(S)=\dfrac{\sum\limits_{x\in S,y\in\bar S}\pi(x)P_{x,y}}{\min(\pi(S),\pi(\bar S))}\),\(\Phi\) 则是全体非空非满的 \(\Phi(S)\) 的 \(\min\)。有 \(t_{avg}(\epsilon)=O(\dfrac{\ln(1/\pi^*)}{\Phi^2\epsilon^3})\)。conductance 分析仅适用于无向图的场合:而前述的谱分解分析适用于一切场合。
Cheeger 不等式连结了 \(\Phi\) 和 \(\delta\):它指出 \(\dfrac\delta2\leq\Phi\leq\sqrt{2\delta}\)。但是,注意此处的 \(\delta=\lambda_1-\lambda_2\),与谱分解中的 \(\delta\) 不完全相同。当 \(P\) 正定时,两个 \(\delta\) 相等;而强制令游走时以一半概率留在原地后,得到的新 MC 与原 MC 有着相同的 sta-dis,且由 Gerschgorin’s Theorem,新 MC 必然正定。
1-D Lattice, \(\Phi=\Omega(1/n)\)。2-D,\(\Phi=\Omega(1/n)\)。k-D,\(\Phi=\Omega(1/kn)\),此时 \(t_{avg}=O(d^3n^2\ln n)\)。
无权图总是有 \(\Phi=\Omega(1/m)\) 的近似,因此 \(t_{avg}=O(n^4\ln n)\),但是这个界非常松。
Coupling 是分布列 \(X_1,\dots\) 与 \(Y_1,\dots\),初态均为单点,且满足若它们在某处游走到同一点,则之后所有时刻均共同游走。注意,coupling 仅仅限制 \(X_{i+1}\sim P(x_i,\cdot),Y_{i+1}\sim P(y_i,\cdot)\),没有限制 \(X_{i+1},Y_{i+1}\) 的 joint distribution。因此接下来会适当地选取合适的 \(J\) 处理。
令 \(d_{x,y}(t)=|P^t(x,\cdot)-P^t(y,\cdot)|\),则 \(\bar d(t)=\max\limits_{x,y\in\Omega}d_{x,y}(t)\)。且,\(d(t)\leq d_{x,y}(t)\leq2d(t)\)。
令 \(\tau\) 为初次相遇时刻。则当 \(X_0=x,Y_0=y\) 时,
后者由 Markov,\(\leq\dfrac{\mathop E\limits_{(X_t,Y_t)\sim J}(\tau)}t\)。于是,可以取出任一一个 \(J\),则 \(t_{mix}\leq\max\limits_{x,y\in\Omega}\mathop E\limits_{(X_t,Y_t)\sim J}(\tau)\)。
这可以被用于更精细地 bound 一些界。例如,1-D Lattice 的场合,令 \(J\) 的 distribution 为,\(\dfrac12\) 的概率 \(x\) 动 \(y\) 不动,\(\dfrac12\) 的概率 \(y\) 动 \(x\) 不动,则 \(x,y\) 各自均分别满足随机游走的朴素规则,然后算二者初遇期望是容易的。此处可以得到 \(n^2\) 的更优界,比使用 conductance 的 \(n^2\log n\) 更牛。
hypercube 随机游走同理:以 \(\dfrac12\) 的概率停留,\(\dfrac1{2n}\) 的概率翻转某一位,可以等价于随机一位,然后以 \(\dfrac12\) 的概率将 \(x,y\) 这一位上同赋为 \(0\) 或 \(1\)。可知 \(t_{mix}=O(n\log n)\)。
IV.杂项
Hoeffding 的证明:
由 Markov,\(\Pr(Z>a)=\Pr(e^{sZ}>e^{sa})\leq e^{-sa}E(e^{sz})\)。则 \(\Pr(X-\mu>\epsilon)\leq e^{-s\epsilon}E(e^{s(X-\mu)})=e^{-s\epsilon}\prod E(e^{s(x_i-E(x_i))})\)
Lemma: 若 \(E(V)=0\) 且 \(a\leq V\leq b\),则 \(E(e^{sv})\leq e^{s^2(b-a)^2/8}\),于是令 \(s=\dfrac{4\epsilon}{\sum(b_i-a_i)^2}\) 可知 \(\Pr(X-\mu>\epsilon)\leq\exp(\dfrac{-2\epsilon^2}{\sum(b_i-a_i)^2})\),也即 Hoeffding。
现在问题是 Lemma 如何证。首先由 \(\exp\) 的凸性知
然后令 \(u=s(b-a)\),\(p=\dfrac b{b-a}\),定义 \(\psi(u)=\ln(pe^{sa}+(1-p)e^{sb})=(p-1)u+\ln(p+(1-p)e^u)\),对其在 \(0\) 处 Lagrange 余项 Taylor 展开得到 \(\psi(u)=\psi(0)+\psi'(0)u+\dfrac12\psi''(\xi)u^2\),前两者为 \(0\),于是试证明 \(\psi''(\xi)\leq1/4\)。列二阶导然后处理即可。