Dirichlet分布及其属性

Dirichlet分布

在概率统计中，Dirichlet分布通常表示为，是一个以正实数的向量为参数的连续多变量概率分布族。这是Beta分布的多元推广。在贝叶斯统计中，狄氏分布很多情况下可作为先验分布，其实Dirichlet分布是类别分布和多项分布的共轭先验。

狄利克雷分布向无限维度的推广便是狄利克雷过程。

Categorical分布

分类分布（有时也被不确切地称为“离散分布”或“多项分布”）从K个概率中的一个来描述事件的发生概率。参数值必须在0、1之间，它们的和为1。分类分布是伯努利分布向多类随机变量的推广。

在分布的表达式中，令采样空间是有限的整数序列。作为标签，这些整数的值并不是重要的，他们可以是{0,1,…,K-1}或 {1,2,…,K}或者其他任意值。为了方便，这里我们使用{1,2,…,K}。

概率密度函数为：

表示元素发生的概率并且。

另外一种更复杂但利于数学运算的表达式：

表示：如果取值为1，否则为0.

严格意义上，分类分布可以看做是多项式分布的一种特殊形式（n=1）。

Dirichlet分布是分类分布和多项分布的共轭先验，这意味着我们可以给分类分布的未知参数一个服从Dirichlet分布的先验分布。然后，这个参数的后验分布（结合观测数据知识后）也是个Dirichlet分布。这样我们便可以根据每次新的观测值不断的更新参数的分布模型。形式上，解释如下：

假设模型：

我们有：

在给定分类分布的N个抽样集时，可以利用这种关系来估计它的参数。此时：

技术上，某些应用也可以采用：

最大后验估计

边缘似然：上述模型中，观测值的边缘似然是Dirichlet-multinomial分布

这里使用了欧拉积分：

边缘似然分布在分层贝叶斯模型中扮演着重要的角色，当使用Gibbs抽样或变分贝叶斯来做推断时，Dirichlet先验分布经常需要边缘化。

后验预测分布：在已知X和时，新观测值的取值分布，形式如下：

结论：后验预测概率是后验分布的期望值。

从另一个角度来看：

新来数据会以较大的概率分配到以前出现次数较多的类中，这种情况可视作“偏好依附”模型。它与很多现实世界的过程相符，在模型下，起初少量数据点的选择对以后数据的分配将产生巨大的影响。

后验条件分布：在Gibbs抽样中，我们需要在多变量贝叶斯网络组成的条件分布（每一个变量都依赖于其他值）中进行抽样。

对于一个数据集X，用表示除去的数据集，有：

这里，表示中属于第i类的数据个数。

抽样过程：

// do multinomial sampling via cumulative method
    for (int k = 0; k < K; k++) {
    p[k] = (nw[w][k] + beta) / (nwsum[k] + Vbeta) *
            (nd[m][k] + alpha) / (ndsum[m] + Kalpha);    //1：得到属于每一类的概率
    }//这就是ToTGibbs中的公式和text-est文件
    // cumulate multinomial parameters
    for (int k = 1; k < K; k++) {
    p[k] += p[k - 1];
    }                                            //2：得到累计概率分布
    // scaled sample because of unnormalized p[]
    double u = ((double)random() / RAND_MAX) * p[K - 1];
                                                //3：采样均匀分布的值
    for (topic = 0; topic < K; topic++) {
    if (p[topic] > u) {
        break;
    }
}                                            //4：返回类别