Erdős–Rényi 随机图的连通性
对于给定的 \(n\) 个顶点, 对于任意一个点对, 以 \(p\) 的概率连边, 这样得到的一个无向简单图上的概率分布, 称为 Erdős–Rényi 随机图模型.
那么, \(p\) 有多大的时候, 得到的图将会有很大概率连通呢? Erdős 和 Rényi 给出了如下结果:
对于 \(p = (\log n + c) / n\), 记事件 \(A(G)\) 为 "\(G\) 是连通图", 那么
\[\lim_{n\to\infty} \Pr[A(G_{n,p})] = e^{-e^{-c}}. \]
这在随机图的研究中一般称为一个 阈值结果 (threshold result), 如果 \(p=o(\log n / n)\), 那么图几乎一定不是连通的 (概率趋于 \(0\)), 而如果 \(p = \omega(\log n / n)\), 那么图几乎一定是连通的!
令人意外的是, 证明这个结果的思路其实相当直接, 或者说, 证明它的途径是基于这样一个直觉:
对于 \(p=(\log n + c)/n\) 的随机图, 当 \(c\) 变大的时候, 基本上图已经是一个连通了所有点的连通块, 剩下的功夫只是通过提升概率将剩余的孤立点加到连通块中.
一个图不连通, 当且仅当它有大小 \(\leq n/2\) 的连通块. 我们记事件 \(A_k\) 是 "\(G_{n, p}\) 里存在大小为 \(k\) 的连通块", 那么根据 union bound, 就有
我们接下来要分别控制 \(\Pr[A_1]\) 和 \(\sum_{k=2}^{n/2} \Pr[A_k]\).
控制 \(\sum_{k=2}^{n/2} \Pr[A_k]\)
这一部分通过一阶矩方法 (也即 Markov 不等式) 就能够得到我们需要的结果.
对于一个大小为 \(k\) 的连通块, 它至少有一颗生成树. 所以我们可以用大小为 \(k\) 的支撑子树的数量来控制存在大小为 \(k\) 的连通块的概率:
首先 \(\binom{n}{k}\) 是选这个连通块占据的位置, \(k^{k-2}\) 是 Cayley 公式, 也即 \(k\) 个点的完全图的生成树的数量, 我们只要求所选的这 \(k-1\) 条边是存在的, 并且这个集合和外部集合之间的边都是不存在的, 分别对应于 \(p^{k-1},(1-p)^{k(n-k)}\).
对于小的 \(k\) 和更大的 \(k\) 我们分别控制, 对于 \(k< 10\), 我们分别证明每一项是 \(o(1)\) 就可以了, 有:
对于 \(10 \leq k\leq n/2\), 我们用到的不等式有:
- \(\binom n k \leq n^k / k!\).
- \(\frac 1{k!} \leq (\frac{e}{k})^k\), 这可以通过对 \(\frac 1{k!} \leq \sum_{j\geq 0} \frac{x^{j-k}}{j!} = x^{-k}e^x\) 带入 \(x=k\) 得到.
- \(n-k \geq n/2\).
- \(1-p \leq e^{-p}\).
都加进去, 我们得到了
那么由于 \(\frac{e(\log n + c)}{n^{1/2}}\to 0\), 我们有
控制 \(\Pr[A_1]\)
注意到, 图中的某一个点是孤立点的概率是 \((1 - p)^{n-1} \sim e^{-np} = e^{-c}/n\), 所以期望的孤立点数量应该趋近于 \(\lambda = e^{-c}\). 如果假装 \(n\) 个点的概率是独立的, 那么孤立点的数量 \(X\) 的分布应该收敛到 Poisson 分布 \(\Pr[X = k] = e^{-\lambda} \frac{\lambda^k}{k!}\). 当然实际上这是不独立的, 但由于每个点之间的关联很小, 这个结论仍然是成立的, 我们有标准的技术来处理这个问题.
首先让我们来计算任意阶矩 \(\mathbb E[\binom X k]\), 这相当于是任选 \(k\) 个点看看它们是不是孤立点, 因此有
我们小学就学过了容斥原理 \(\Pr[X=0] = \mathbb E[\binom X 0]-\mathbb E[\binom X 1]+\mathbb E[\binom X 2] - \cdots\), 看起来如果能逐项取极限就和我们想要的结论一致了, 当然实际上我们还得稍微克制一下.
考虑求和
当 \(X=0\) 时右式总是 \(1\), 否则有 \(\binom{X-1}{k} \geq 0\), 所以
这也就是称作所谓的 Bonferroni 不等式.
那么如果固定了 \(k\), 我们对两边取极限, 就有
因此再对 \(k\) 取极限, 我们就有
这也就得到了
上面的容斥手法在 The Probabilistic Method 一书中称为 Brun 筛法. 更一般地, 它还可以进一步得到 \(\Pr[X=k] \to e^{-\lambda} \lambda^k/k!\), 也就是说 \(X\) 确实趋近于 Poisson 分布. 所以更精细地说, 我们有如下结果:
\(G_{n,p}\) 趋近于有 \(e^{-e^{-c}-ck}/k!\) 的概率形如 "\(k\) 个孤立点, 剩下的点连通".
更一般地说, 对于满足一定条件的随机变量 \(X\), 我们只要确定了任意阶矩 \(\mathbb E[X_n^k] \to \mathbb E[X^k]\), 就能够得到分布的收敛性. 有些时候这是比控制特征函数要容易的.
另一个模型
Erdős–Rényi 随机图一般来说还可以指另一个模型 \(G_{n, m}\), 也就是从 \(\binom n 2\) 条边中均匀选取 \(m\) 条, 这也是很自然的想法. 直观上看, 一个 \(G_{n,p}\) 应该和 \(m = \binom n 2 p\) 的 \(G_{n,m}\) 是差不多的. 也就是说, 我们希望有
对于 \(m = n(\log n + c_n) /2\), 当 \(c_n\to c\), 我们有 \(\Pr[A(G_{n,m})] \to e^{-e^{-c}}\).
事实上这也是对的, 我们可以考虑如下观点: \(G_{n,m+1}\) 就是在 \(G_{n, m}\) 的基础上随机选一条不在里面的边加进去, 而加边是不会丧失连通性的 (我们管这种性质叫做 单调性质 (monotone property)), 我们就有
那么直观上, 取 \(p_\pm = (\log n + c \pm \epsilon) / n\), 我们应该有 \(G_{n,p_-} \lesssim G_{n,m} \lesssim G_{n,p_+}\). 具体地说, \(G_{n,p}\) 等价于如下过程: 以 \(\binom{\binom n 2}{k}p^k (1-p)^{\binom n 2 - k}\) 的概率选取 \(k\), 然后生成 \(G_{n,k}\). 也就是说, 记 \(X\) 是 \(\binom n 2\) 个 \(\mathrm{Bernoulli}(p)\) 的和, 我们就有
对于 \(p_-\), 就有
注意到 \(m - \binom n2 p \sim \epsilon n\), 而 \(X\) 是均值为 \(\binom n 2 p\), 方差为 \(\binom n 2 p (1-p) = \Theta(n\log n)\), 所以 Chebyshev 不等式告诉我们 \(\Pr[X > m] = O\left( (n\log^2 n)^{-1}\right) = o(1)\). 进而有
取极限得到
再对 \(\epsilon\) 取极限, 得到
另一个方向也类似, 因此我们有
\(k\)-连通性
作为算法来说判断 \(k\)-连通性虽然比连通性困难, 但对于 Erdős–Rényi 图来说结论却没有复杂太多. 注意图 \(k\)-连通等于说任意删掉不超过 \(k-1\) 个点, 余下的图都连通. 所以如果有一个点的度数小于 \(k\), 那图一定不是 \(k\)-连通的, 事实上这依然是 \(G_{n,p}\) 不 \(k\)-连通的主要原因.
对于 \(p = (\log n + (k-1)\log \log n + c)/n\), 一个点的度数小于 \(k\) 的概率是
其中 \(i=k-1\) 占主导地位, 有
因此可以预见的是, 度数小于 \(k\) 的节点数 \(X\) 是趋近与 \(\lambda = e^{-c}/(k-1)!\) 的 Poisson 分布的.
除此之外, 我们还需要控制 "可以删去不超过 \(k-1\) 个点, 然后还剩下一个大小在 \(2\) 到 \(n/2\) 之间的连通块" 的可能性, 我们还是可以计数这样的连通块的生成树的数量, 需要注意的技术细节是, 要避免枚举无用的删去的点, 只需要再枚举每个删掉的点向连通块连一条边.
这里的计算过程我们略去, 得到的结果就是,