学习笔记-《统计学习方法》-第四章-朴素贝叶斯

4 朴素贝叶斯

4.1.1 朴素贝叶斯的学习与分类

设输入空间 $\mathcal{X} \subseteq R^n$ 为 $n$ 维向量的集合，输出空间为类标记集合 $\mathcal{Y} = \{c_1, c_2, ..., c_k\}$ 。输入为特征向量 $x \in \mathcal{X}$ ，输出为类标记（class label） $y \in \mathcal{Y}$ 。 $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机变量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量， $P(X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布，训练数据集

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{n}, y_{n})}

$T=\{(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\}$

由 $P(X,Y)$ 独立同分布产生。

朴素贝叶斯法通过训练数据集学习联合概率分布 $P(X,Y)$ 。具体的，是学习先验概率分布及条件概率分布。

先验概率分布

P (Y = c_{k}), k = 1, 2, . . ., K

$P(Y=c_k), k=1,2,...,K$

条件概率分布

P (X = x | Y = c_{k}) = P (X^{(1)} = x^{(1)}, X^{(2)} = x^{(2)}, . . ., X^{(n)} = x^{(n)} | Y = c_{k}), k = 1, 2, . . ., K

$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, X^{(2)}=x^{(2)}, ..., X^{(n)}=x^{(n)}|Y=c_k), k=1,2,...,K$

从而获得联合概率分布。

条件概率分布 $P(X=x|Y=c_k)$ 有指数级的参数，其估计实际上是不可能的。假设 $x^{(j)}$ 可取值有 $S_j$ 个， $j=1,2,..,n$ ， $Y$ 可取值有 $K$ 个，那么参数个数为 $K \prod_{j=1}^{n}{S_j}$

朴素贝叶斯法为了解决该问题，作了条件独立性假设，由于这是一个较强的假设，朴素贝叶斯法因此得名。

P (X = x | Y = c_{k}) = P (X^{(1)} = x^{(1)}, X^{(2)} = x^{(2)}, . . ., X^{(n)} = x^{(n)} | Y = c_{k}) = \prod_{j = 1}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k})

$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, X^{(2)}=x^{(2)}, ..., X^{(n)}=x^{(n)}|Y=c_k)\\ =\prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}$

基于此，后验概率为

P (Y = c_{k} | X = x) = \frac{P (X = x | Y = c_{k}) P (Y = c_{k})}{\sum_{k} P (X = x | Y = c_{k}) P (Y = c_{k})}

$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k)}$

将上式代入，可得

P (Y = c_{k} | X = x) = \frac{P (Y = c_{k}) \prod_{j = 1}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k})}{\sum_{k} P (Y = c_{k}) \prod_{j = 1}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k})}

$P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}} {\sum_k P(Y=c_k) \prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}}$

于是得到

y = f (x) = \underset{c_{k}}{a r g m a x} \frac{P (Y = c_{k}) \prod_{j = 1}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k})}{\sum_{k} P (Y = c_{k}) \prod_{j = 1}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k})}

$y=f(x)=\underset{c_k}{argmax}\frac{P(Y=c_k)\prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}} {\sum_k P(Y=c_k) \prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}}$

又因为分母部分对于所有的 $c_k$ 是一致的，所以

y = f (x) = \underset{c_{k}}{a r g m a x} P (Y = c_{k}) \prod_{j = 1}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k})

$y=f(x)=\underset{c_k}{argmax} {P(Y=c_k)\prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}}$

4.1.2 后验概率最大化的定义

朴素贝叶斯实际是将实例分到后验概率最大化的类中，这等价于期望风险最小化。假设选择0-1损失函数

L (Y, f (X)) = {\begin{cases} 1, Y \neq f (X) \\ 0, Y = f (X) \end{cases}

$L(Y, f(X)) = \begin{cases} 1, Y \neq f(X) \\ 0, Y = f(X) \end{cases}$

期望风险函数为：

R_{e x p} (f) = E [L (Y, f (X))] = E_{X} \sum_{k = 1}^{K} L (Y, f (X)) P (c_{k} | X)

$R_{exp}(f)=E[L(Y,f(X))] =E_X \sum_{k=1}^{K} L(Y,f(X)) P(c_k|X)$

为使期望风险最小化，只需对 $X=x$ 逐个极小化，由此

f (x) = \underset{y \in Y}{a r g m i n} \sum_{k = 1}^{K} L (Y, f (X)) P (c_{k} | X = x) = \underset{y \in Y}{a r g m i n} \sum_{k = 1}^{K} P (y \neq c_{k} | X = x) = \underset{y \in Y}{a r g m i n} \sum_{k = 1}^{K} 1 - P (y = c_{k} | X = x) = \underset{y \in Y}{a r g m a x} \sum_{k = 1}^{K} P (y = c_{k} | X = x)

$f(x)=\underset{y\in\mathcal{Y}}{argmin}\sum_{k=1}^{K} L(Y,f(X)) P(c_k|X=x) \\ = \underset{y\in\mathcal{Y}}{argmin}\sum_{k=1}^{K} P(y \neq c_k|X=x) \\ = \underset{y\in\mathcal{Y}}{argmin}\sum_{k=1}^{K} 1 - P(y = c_k|X=x) \\ = \underset{y\in\mathcal{Y}}{argmax}\sum_{k=1}^{K} P(y = c_k|X=x)$

由此，根据期望风险最小化准则得到了后验概率最大化准则，也就是贝叶斯法所采用的准则。

4.2 朴素贝叶斯法的参数估计

4.2.1 极大似然估计

先验概率的极大似然估计

P (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k})}{N}, k = 1, 2, . . ., K

$P(Y = c_k) = \frac{\sum_{i=1}^{N}I(y_i = c_k)}{N}, k=1,2,...,K$

证明：

首先明确参数是什么，参数是 $p(y=c_k)$ 以及 $p(x^{(j)}=a_{jl}|y=c_k)$ ，以 $\psi$ 代表这两个参数

L (ψ) = l o g \prod_{i = 1}^{N} p (x_{i}, y_{i}; ψ) = l o g \prod_{i = 1}^{N} p (x_{i} | y_{i}; ψ) p (y_{i}; ψ) = l o g \prod_{i = 1}^{N} (\prod_{j = 1}^{n} p (x_{i}^{(j)} | y_{i}; ψ)) p (y_{i}; ψ) = \sum_{i = 1}^{N} [l o g p (y_{i}; ψ) + \sum_{j = 1}^{n} l o g p (x_{i}^{(j)} | y_{i}; ψ)] 代 入 参 数 = \sum_{i = 1}^{N} [\sum_{k = 1}^{K} l o g p (y = c_{k})^{I (y_{i} = c_{k})} + \sum_{k = 1}^{K} \sum_{j = 1}^{n} \sum_{l = 1}^{S_{j}} l o g p (x_{i}^{(j)} = a_{j l} | y_{i} = c_{k})^{I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k})}] = \sum_{i = 1}^{N} [\sum_{k = 1}^{K} I (y_{i} = c_{k}) l o g p (y = c_{k}) + \sum_{k = 1}^{K} \sum_{j = 1}^{n} \sum_{l = 1}^{S_{j}} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k}) l o g p (x_{i}^{(j)} = a_{j l} | y_{i} = c_{k})]

$L(\psi) = log \prod_{i=1}^N p(x_i, y_i; \psi) \\ = log \prod_{i=1}^N p(x_i | y_i; \psi) p(y_i; \psi) \\ = log \prod_{i=1}^N (\prod_{j=1}^n p(x_i^{(j)} | y_i ; \psi)) p(y_i; \psi) \\ = \sum_{i=1}^N[log p(y_i; \psi) + \sum_{j=1}^n log p(x_i^{(j)}| y_i ; \psi)] \\ 代入参数 \\ = \sum_{i=1}^N[\sum_{k=1}^K log p(y = c_k)^{I(y_i=c_k)} + \sum_{k=1}^K \sum_{j=1}^n \sum_{l=1}^{S_j} log p(x_i^{(j)} = a_{jl}| y_i = c_k) ^{I(x_i^{(j)}=a_{jl}, y_i=c_k)}] \\ = \sum_{i=1}^N [\sum_{k=1}^K {I(y_i=c_k)}log p(y = c_k) + \sum_{k=1}^K \sum_{j=1}^n \sum_{l=1}^{S_j} {I(x_i^{(j)}=a_{jl}, y_i=c_k)} log p(x_i^{(j)} = a_{jl}| y_i = c_k)] \\$

但实际上， $p(y=c_k)$ 也存在相应的约束，有约束的求极值，可以考虑使用拉格朗日乘子法。

上式子中只有前半段含有$p(y = c_k)，所以求先验概率估计时只考虑前半部分

先验概率估计

令 $F = \sum_{i=1}^N [\sum_{k=1}^K {I(y_i=c_k)}log p(y = c_k) + \lambda (1 - \sum_{k=1}^K p(y = c_k))]$

这里需要注意，并没有直接把 $1 - \sum_{k=1}^K p(y = c_k))$ 代入，而是带入了 $\sum_{i=1}^N (1 - \sum_{k=1}^K p(y = c_k)))$ ，区别不大，因为都是0，代入一个和多个是一样的，但是代入多个的情况下，下面更容易求解。

{\begin{cases} \frac{\partial F}{\partial p (y = c_{1})} = \sum_{i = 1}^{N} \frac{I (y = c_{1})}{p (y = c_{1})} - λ = 0 \\ \frac{\partial F}{\partial p (y = c_{2})} = \sum_{i = 1}^{N} \frac{I (y = c_{2})}{p (y = c_{2})} - λ = 0 \\ . . . \\ \frac{\partial F}{\partial p (y = c_{K})} = \sum_{i = 1}^{N} \frac{I (y = c_{K})}{p (y = c_{K})} - λ = 0 \\ \frac{\partial F}{\partial λ} = \sum_{i = 1}^{N} {1 - \sum_{k = 1}^{K} p (y = c_{k})} = 0 \end{cases}

$\begin{cases} \frac{\partial F}{\partial p(y = c_1)} = \sum_{i=1}^N {\frac{I(y = c_1)}{p(y = c_1)} - \lambda} = 0 \\ \frac{\partial F}{\partial p(y = c_2)} = \sum_{i=1}^N {\frac{I(y = c_2)}{p(y = c_2)} - \lambda} = 0 \\ ... \\ \frac{\partial F}{\partial p(y = c_K)} = \sum_{i=1}^N {\frac{I(y = c_K)}{p(y = c_K)} - \lambda} = 0 \\ \frac{\partial F}{\partial \lambda} = \sum_{i=1}^N \{1 - \sum_{k=1}^K p(y = c_k)\} = 0 \end{cases}$

联立前N个式子，可得

\begin{matrix} (2) & {\begin{cases} p (y = c_{1}) = \frac{\sum_{i = 1}^{N} I (y = c_{1})}{N λ} \\ p (y = c_{2}) = \frac{\sum_{i = 1}^{N} I (y = c_{2})}{N λ} \\ . . . \\ p (y = c_{K}) = \frac{\sum_{i = 1}^{N} I (y = c_{K})}{N λ} \end{cases} \end{matrix}

$\begin{cases} p(y = c_1) = \frac{\sum_{i=1}^N I(y = c_1)}{N \lambda} \\ p(y = c_2) = \frac{\sum_{i=1}^N I(y = c_2)}{N \lambda} \\ ... \\ p(y = c_K) = \frac{\sum_{i=1}^N I(y = c_K)}{N \lambda} \end{cases} \tag{2}$

因为 $\sum_{k=1}^K p(y = c_k) = 1$ ，所以

1 = \frac{\sum_{i = 1}^{N} \sum_{i = 1}^{K} I (y = c_{k})}{N λ} 1 = \frac{N}{N λ} λ = 1

$1 = \frac {\sum_{i=1}^N \sum_{i=1}^K I(y = c_k)} {N \lambda} \\ 1 = \frac {N} {N \lambda} \\ \lambda = 1$

代入(2)式，得到

p (y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y = c_{k})}{N} k = 1, 2, 3, . . ., K

$p(y = c_k) = \frac{\sum_{i=1}^N I(y = c_k)}{N} k = 1,2,3,...,K$

条件概率的极大似然估计

G = \sum_{i = 1}^{N} {\sum_{k = 1}^{K} \sum_{j = 1}^{n} ((\sum_{l = 1}^{S_{j}} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k}) l o g p (x_{i}^{(j)} = a_{j l} | y_{i} = c_{k})) + λ_{k j} (1 - \sum_{l = 1}^{S_{j}} p (x^{j} = a_{j l} | y = c_{k}))}

$G = \sum_{i=1}^N \{ \sum_{k=1}^K \sum_{j=1}^n ( (\sum_{l=1}^{S_j} {I(x_i^{(j)}=a_{jl}, y_i=c_k)} log p(x_i^{(j)} = a_{jl}| y_i = c_k)) + \lambda_{kj} (1 - \sum_{l=1}^{S_j} p(x^{j} = a_{jl} | y = c_k)) \} \\$

与上面类似，由于对于每个 $k,j$ 都会存在一个 $\sum_{l=1}^{S_j} p(x^{j} = a_{jl} | y = c_k) = 1$ ，所以实际上存在 $k*l$ 个约束，求导可得

\begin{matrix} (3) & {\begin{cases} \frac{\partial G}{\partial p (x_{i}^{(j)} = a_{j l} | y_{i} = c_{k}))} = \sum_{i = 1}^{N} {\frac{I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k})}{p (x_{i}^{(j)} = a_{j l} | y_{i} = c_{k})} - λ_{k j}} = 0 \\ \frac{\partial G}{\partial λ_{k j}} = \sum_{i = 1}^{N} (1 - \sum_{l = 1}^{S_{j}} p (x^{j} = a_{j l} | y = c_{k})) = 0 \end{cases} \end{matrix}

$\begin{cases} \frac{\partial G}{\partial p(x_i^{(j)} = a_{jl}| y_i = c_k))} = \sum_{i=1}^N \{ \frac{I(x_i^{(j)}=a_{jl}, y_i=c_k)} {p(x_i^{(j)} = a_{jl}| y_i = c_k)} - \lambda_{kj} \} = 0 \\ \frac{\partial G}{\partial \lambda_{kj}} = \sum_{i=1}^N (1 - \sum_{l=1}^{S_j} p(x^{j} = a_{jl} | y = c_k)) = 0 \end{cases} \tag{3}$

由第一个式子可得

\begin{matrix} (4) & p (x_{i}^{(j)} = a_{j l} | y_{i} = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k})}{N λ_{k j}} \end{matrix}

$p(x_i^{(j)} = a_{jl}| y_i = c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl}, y_i=c_k)} {N \lambda_{kj}} \tag{4}$

由第二个式子可得

\begin{matrix} (5) & \sum_{l = 1}^{S_{j}} p (x^{j} = a_{j l} | y = c_{k})) = 1 \end{matrix}

$\sum_{l=1}^{S_j} p(x^{j} = a_{jl} | y = c_k)) = 1 \tag{5}$

联立两个式子可得

1 = \sum_{l = 1}^{S_{j}} \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k})}{N λ_{k j}} 1 = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k})}{N λ_{k j}} N λ_{k j} = \sum_{i = 1}^{N} I (y_{i} = c_{k})

$1 = \sum_{l = 1}^{S_j} \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl}, y_i=c_k)} {N \lambda_{kj}} \\ 1 = \frac {\sum_{i = 1}^N I(y_i = c_k)} {N \lambda_{kj}} \\ N \lambda_{kj} = \sum_{i = 1}^N I(y_i = c_k)$

代入上式(4)，得到

p (x_{i}^{(j)} = a_{j l} | y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k})}{\sum_{i = 1}^{N} I (y_{i} = c_{k})}

$p(x_i^{(j)} = a_{jl}| y = c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl}, y_i=c_k)} {\sum_{i = 1}^N I(y_i = c_k)}$

证明完毕。

4.2.2 学习与分类算法

输入：训练数据 $T = \{(x_1, y_2), (x_2, y_2), ..., (x_N, y_N)\}$ ，其中 $x_i = (x_i^{(1)}, x_i^{(2)}, ..., x_i^{(j)})^T$ ，其中 $x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $x_i^{(j)} \in \{a_{j1}, a_{j2}, ... a_{jS_j}\}$ ， $a_{jl}$ 是第 $j$ 个特征可能的第 $l$ 个取值， $j = 1,2, ..., n, l = 1,2,..., S_j, y_i \in \{c_1, c_2, ..., c_K\}$ ；

输出：输出实例 $x$ 的分类。

（1）计算先验概率及条件概率

p (y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y = c_{k})}{N}, k = 1, 2, 3, . . ., K p (x_{i}^{(j)} = a_{j l} | y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k})}{\sum_{i = 1}^{N} I (y_{i} = c_{k})} j = 1, 2, . . ., n; l = 1, 2, . . ., S_{j}; k = 1, 2, . . ., K

$p(y = c_k) = \frac{\sum_{i=1}^N I(y = c_k)}{N},\ \ \ \ k = 1,2,3,...,K \\ p(x_i^{(j)} = a_{jl}| y = c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl}, y_i=c_k)} {\sum_{i = 1}^N I(y_i = c_k)} \\ j = 1,2, ..., n; \ \ l = 1,2,..., S_j; \ \ k = 1, 2, ..., K$

（2）对于给定的实例 $x = (x^{(1)}, x^{(2)}, ..., x^{(n)})^T$ ，计算

P (Y = c_{k}) \prod_{j = 1}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k}), k = 1, 2, . . ., K

$P(Y = c_k) \prod_{j = 1}^n P(X ^{(j)} = x^{(j)} | Y = c_k), \ \ \ k=1,2,...,K$

（3）确定实例 $x$ 的类

y = \underset{c_{k}}{a r g m a x} P (Y = c_{k}) \prod_{j = 1}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k})

$y = \underset {c_k} {argmax} P(Y = c_k) \prod_{j = 1}^n P(X ^{(j)} = x^{(j)} | Y = c_k)$

4.2.3 贝叶斯估计

使用极大似然估计可能会出现所要估计的概率值为0的情况，这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计

P_{λ} (X^{(j)} = a_{j l} | Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k}) + λ}{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + S_{j} λ}

$P_{\lambda}(X^{(j)} = a_{jl} | Y = c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl}, y_i=c_k) + \lambda} {\sum_{i = 1}^N I(y_i = c_k) + S_j \lambda}$

式中 $\lambda >= 0$ ，等价于在随机变量各个取值的频数上赋予一个正数 $\lambda > 0$ ，当 $\lambda = 0$ 的时候，就是极大似然估计。常取 $\lambda = 1$ ，这时称为拉普拉斯平滑（Laplacian smoothing）。由于对于任意的 $l = 1,2,..., S_j; \ \ k = 1, 2, ..., K$ ，都有

P_{λ} (X^{(j)} = a_{j l} | Y = c_{k}) > 0 \sum_{l = 1}^{S_{j}} P_{λ} (X^{(j)} = a_{j l} | Y = c_{k}) = 0

$P_{\lambda}(X^{(j)} = a_{jl} | Y = c_k) > 0 \\ \sum_{l = 1}^{S_j} P_{\lambda}(X^{(j)} = a_{jl} | Y = c_k) = 0$

所以贝叶斯估计也是一种概率分布，同样的，先验概率的贝叶斯估计是

P_{λ} (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y = c_{k}) + λ}{N + K λ}, k = 1, 2, 3, . . ., K

$P_{\lambda}(Y = c_k) = \frac{\sum_{i=1}^N I(y = c_k) + \lambda}{N + K \lambda},\ \ \ \ k = 1,2,3,...,K$

总结

朴素贝叶斯法是典型的生成学习方法。生成学习方法由训练数据学习联合概率分布 $P(X,Y)$ ，然后求得后验概率分布 $P(X | Y)$ 。
朴素贝叶斯的基本假设是条件独立性，基于此，省略率大量的参数，学习与预测大为简化，因而优点是高效，且易于实现。缺点就是分类性能不一定很高。

习题

回顾下贝叶斯估计

思路：假设概率 $P_{\lambda}(Y=c_i)$ 服从狄利克雷（Dirichlet）分布，根据贝叶斯公式，推导后验概率也服从Dirichlet分布，求参数期望；

证明步骤：

条件假设

根据朴素贝叶斯法的基本方法，训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}$ ，假设：
（1）随机变量 $Y$ 出现 $y=c_k$ 的次数为 $m_k$ ，即 $\displaystyle m_k=\sum_{i=1}^N I(y_i=c_k)$ ，可知 $\displaystyle \sum_{k=1}^K m_k = N$ （y总共有N个）;
（2） $P_\lambda(Y=c_k)=u_k$ ，随机变量 $u_k$ 服从参数为 $\lambda$ 的Dirichlet分布。

补充说明：

狄利克雷(Dirichlet)分布
参考PRML（Pattern Recognition and Machine Learning）一书的第2.2.1章节：⽤似然函数(2.34)乘以先验(2.38)，我们得到了参数 $u_k$ 的后验分布，形式为

$p(u|D,\alpha) \propto p(D|u)p(u|\alpha) \propto \prod_{k=1}^K u_k^{\alpha_k+m_k-1}$
该书中第B.4章节：狄利克雷分布是K个随机变量 $0 \leqslant u_k \leqslant 1$ 的多变量分布，其中 $k=1,2,\ldots,K$ ，并满足以下约束

$0 \leqslant u_k \leqslant 1, \quad \sum_{k=1}^K u_k = 1$
记 $u=(u_1,\ldots,u_K)^T, \alpha=(\alpha_1,\ldots,\alpha_K)^T$ ，有

$Dir(u|\alpha) = C(\alpha) \prod_{k-1}^K u_k^{\alpha_k - 1} \\ E(u_k) = \frac{\alpha_k}{\displaystyle \sum_{k=1}^K \alpha_k}$
为什么假设 $Y=c_k$ 的概率服从Dirichlet分布？
答：原因如下：
（1）首先，根据PRML第B.4章节，Dirichlet分布是Beta分布的推广。
（2）由于，Beta分布是二项式分布的共轭分布，Dirichlet分布是多项式分布的共轭分布。Dirichlet分布可以看作是“分布的分布”；
（3）又因为，Beta分布与Dirichlet分布都是先验共轭的，意味着先验概率和后验概率属于同一个分布。当假设为Beta分布或者Dirichlet分布时，通过获得大量的观测数据，进行数据分布的调整，使得计算出来的概率越来越接近真实值。
（4）因此，对于一个概率未知的事件，Beta分布或Dirichlet分布能作为表示该事件发生的概率的概率分布。

大佬牛逼...感谢网上的解答

得到先验概率：

$\displaystyle P(u)=P(u_1,u_2,\ldots,u_K) = C(\lambda) \prod_{k=1}^K u_k^{\lambda - 1}$
得到似然函数
记 $m=(m_1, m_2, \ldots, m_K)^T$ ，可得似然函数为

$P(m|u) = u_1^{m_1} \cdot u_2^{m_2} \cdots u_K^{m_K} = \prod_{k=1}^K u_k^{m_k}$
得到后验概率分布
结合贝叶斯公式，求 $u$ 的后验概率分布，可得

$P(u|m) = \frac{P(m|u)P(u)}{P(m)}$
根据假设(1)，可得

$P(u|m,\lambda) \propto P(m|u)P(u|\lambda) \propto \prod_{k=1}^K u_k^{\lambda+m_k-1}$
上式表明，后验概率分布P(u|m,\lambda)P(u∣m,λ)也服从Dirichlet分布
得到随机变量uu的期望
根据后验概率分布 $P(u|m,\lambda)$ 和假设(1)，求随机变量 $u$ 的期望，可得

$E(u_k) = \frac{\alpha_k}{\displaystyle \sum_{k=1}^K \alpha_k}$
其中 $\alpha_k = \lambda+m_k$ ，则

$\begin{aligned} E(u_k) &= \frac{\alpha_k}{\displaystyle \sum_{k=1}^K \alpha_k} \\ &= \frac{\lambda+m_k}{\displaystyle \sum_{k=1}^K (\lambda + m_k)} \\ &= \frac{\lambda+m_k}{\displaystyle \sum_{k=1}^K \lambda +\sum_{k=1}^K m_k} \\ &= \frac{\lambda+m_k}{\displaystyle K \lambda + N } \\ &= \frac{\displaystyle \sum_{i=1}^N I(y_i=c_k) + \lambda}{N+K \lambda} \end{aligned}$