机器学习之MCMC算法

1、MCMC概述

　　从名字我们可以看出，MCMC由两个MC组成，即蒙特卡罗方法（Monte Carlo Simulation，简称MC）和马尔科夫链（Markov Chain ，也简称MC）。之前已经介绍过蒙特卡洛方法，接下来介绍马尔科夫链，以及结合两者的采样算法。

2、马尔科夫链

　　马尔科夫链的概念在很多地方都被提及过，它的核心思想是某一时刻状态转移的概率只依赖于它的前一个状态。　　

　　我们用数学定义来描述，则假设我们的序列状态是 $. . . X_{t - 2}, X_{t - 1}, X_{t}, X_{t + 1}, . . .$

$. . . X_{t - 2}, X_{t - 1}, X_{t}, X_{t + 1}, . . .$

　　则状态转移矩阵可以表示为

　　此时，我们给定一个初始状态，然后经过该状态转移矩阵的转换，最终会收敛到一个稳定的状态，具体如马尔科夫链定理所示

　　由于马尔科夫链能收敛到平稳分布，于是有了一个想法：如果我们能构造一个转移矩阵为P的马氏链，使得该马氏链的平稳分布恰好是p(x), 那么我们从任何一个初始状态x₀出发沿着马氏链转移, 得到一个转移序列 x₀, x₁, x₂,⋯x_n, x_n+1⋯，如果马氏链在第n步已经收敛了，于是我们就得到了 π(x) 的样本x_n, x_n+1⋯（也就是从第n步收敛时开始，之后的x都服从同一个平稳分布，我们可以将这个分布设定为我们的目标采样分布）。

　　从上面可以看出马尔科夫链的平稳分布收敛主要依赖于状态转移矩阵，所以关键是如何构建状态转移矩阵，使得最终的平稳分布是我们所要的分布。想做到这一点主要依赖于细致平稳定理