狄利克雷过程(Dirichlet Process）

先从狄利克雷过程的motivation开始说起，如果我们有一些数据，这些数据是从几个高斯分布中得出的，也就是混合高斯模型中得出的，比如下图这样

但是呢，我们并不知道混合高斯模型中到底有多少个高斯分布，它可能是这样

也可能是这样

在这个情况下，最大期望算法并不能解决这个问题，所以我们就需要狄利克雷过程来帮助我们。现实生活中的例子可以是，我有一堆论文但是我不知道这些论文到底讨论了多少论题。

首先，需要明确的是我们使用狄利克雷过程是想解决聚类的问题，有多少类我并不知道。我们从最极端的例子开始考虑，假设有 $N$ 个数据 $x_{1}, x_{2}, ..., x_{N}$ ，每个数据都是从不同的分布产生的 $g_{1}, g_{2},...,g_{N}$ 。那么，每一个分布会有对应自己的参数 $\theta_{1},\theta_{2},...,\theta_{N}$ ，例如 $g_{i}$ 是高斯分布，那么 $\theta_{i}=\left\{ \mu_{i},\sigma_{i} \right\}$ 。既然， $x_{i}$ 是分布 $g_{i}$ 产生的， $g_{i}$ 又可以用 $\theta_{i}$ 来定义，那么我们可以对 $\theta_{i}$ 建模。假设 $\theta_{i}$ 是遵循某一个分布 $H(\theta)$ ，我们想想当 $H(\theta)$ 是连续分布的时候 $\mathbb{P}(\theta_{i}=\theta{j})=0, i\neq j$ ，这也就是我之前假设的，每个数据都来自不同的分布。但是，这个假设并不是我们想要的，我们想要解决的是聚类问题。所以，我们就想到构造一个离散的分布 $G$ 使得 $\theta_{i} \sim\ G$ ，而且 $G$ 要和 $H(\theta)$ 长得非常像。这个离散分布 $G$ 就服从狄利克雷过程，也就是 $G\sim\ DP(\alpha, H)$ 。狄利克雷过程里的 $H$ ，就是我之前提到的 $H(\theta)$ 也称作base measure，且不一定是连续的，也可以是离散的。 $\alpha$ 是一个矢量且 $\alpha >0$ ，可以理解为离散程度：如果 $\alpha$ 很大代表非常不离散，当 $\alpha\rightarrow\infty$ 的时候 $G=H$ ， $\alpha$ 小就代表非常的离散，当 $\alpha=0$ 的时候，我们就是在用一个分布来对所有的 $\theta$ 建模。这里我需要说一下，为了解释的简单一点，这样解释其实不是非常的准确，但是这样理解是没有问题的。

讲到这里，我必须提醒一下大家， $G$ 是从狄利克雷过程中产生的，不是一个随机变量而是一整个离散分布。

这里我讲完了狄利克雷过程的大致理解，接下来说狄利克雷过程具体是怎么定义的，和狄利克雷过程与狄利克雷分布的一些联系。

假设 $G_{i}$ 都是从同一个狄利克雷过程中产生的，那么他们必然是有某一些内在的联系，至少得长得比较像。如下图，这两个分布，都是是从 $DP(1000,N(0,1))$ 过程中产生的。我们将这两个分布，分成 $d$ 个不同的区域 $a_{1},a_{2},...,a_{d}$ ，这个可以任意划分

重申一下， $G_{1},G_{2}$ 都是完整的分布，所以 $\int_{a_{1}}G_{i}+\int_{a_{2}}G_{i}+...+\int_{a_{d}}G_{i}=G_{i}(a_{1})+G_{i}(a_{2})+...+G_{i}(a_{d})=1,i=1,2$

从图中，我们也可以看出，每一个区域，长相都是略有相似的，所以我们定义： $(G(a_{1}),G(a_{2}),..,G(a_{d}))\sim\ Dirichlet(\alpha H(a_{1}),\alpha H(a_{2}),...,\alpha H(a_{d}))$

以上其实就是狄利克雷过程的定义。也就是说 $G$ 在每一个空间 $a_{i}$ 里面的测度都要服从一个狄雷克雷分布。

以上就讲完了狄利克雷过程的定义，其实呢还想讲一讲狄利克雷过程的一些性质，因为确实有一些非常有意思的性质，也对我前面狄利克雷过程的解释有一些呼应。

随手百度就可以知道如果 $\mathbb{P}(x_{1},x_{2},...,x_{n})\sim\ Dirichlet(a_{1},a_{2},...,a_{n})$ ，则

$\mathbb{E}(x_{i})=\frac{a_{i}}{\sum_{i=1}^{n}{a_{i}}}$ ， $Var(x_{i})=\frac{a_{i}(\sum_{n}{a_{n}-a_{i}})}{(\sum_{n}{a_{n}})^{2}(\sum_{n}{a_{n}+1})}$

根据狄利克雷过程的定义，

$(G(a_{1}),G(a_{2}),..,G(a_{d}))\sim\ Dirichlet(\alpha H(a_{1}),\alpha H(a_{2}),...,\alpha H(a_{d}))$

我们将 $G$ 带入狄利克雷分布的期望和方差式子里面我们可以看到

$\mathbb{E}(G(a_{i}))=\frac{\alpha H(a_{i})}{\sum_{i=1}^{n}{\alpha H(a_{i})}}=\frac{\alpha H(a_{i})}{\alpha}=H(a_{i})$ 因为 $H$ 是一个分布， $\int_{a}H(a)=1$

$Var(G(a_{i}))=\frac{\alpha H(a_{i})(\alpha-\alpha H(a_{i}))}{(\alpha)^{2}(\alpha+1)}=\frac{H(a_{i})(1-H(a_{i}))}{\alpha+1}$

从上面的式子中，首先我们可以看到， $G(a_{i})$ 的期望是和 $\alpha$ 没有关系的，而且就是等于 $H(\alpha_{i})$ ，这也符合最开始我说过的，我们的目的是构造一个尽量和 $H$ 相近的离散分布。同样，前面我也提到 $\alpha$ 代表了这个狄利克雷过程到底有多离散。当 $\alpha\rightarrow\infty$ ， $Var(G(x_{i}))=0$ 也就是最不离散的情况。当 $\alpha=0$ ， $Var(G(x_{i}))=H(a_{i})(1-H(a_{i}))$ ，结合 $\mathbb{E}(G(a_{i}))=H(a_{i})$ ，是不是有点儿眼熟？对，就是伯努利分布。也就是说，要么有一个测度在 $a_{i}$ 里面，要么就不在，这也就是最离散的情况。