EM算法

转自：https://snaildove.github.io/2018/10/01/9.EM_and_GEM_LiHang-Statistical-Learning-Methods/

前言

EM（期望最大）算法有很多的应用，最广泛的就是混合高斯模型、聚类、HMM等等，本质上就是一种优化算法，不断迭代，获得优值，与梯度下降、牛顿法、共轭梯度法都起到同一类的作用。

本文是对李航《统计学习方法》的第9章复习总结，主要内容如下

EM（期望最大）算法证明有跳跃性的地方全部事无巨细地写出来，
在三硬币例子解析这一节将会把这个例子跟公式一一对应起来
GMM（高斯混合模型）迭代公式证明
F函数的极大-极大算法（Maximization-Maximization-algorithm）和GEM 详细证明

当然大家也可以参考 Stanford 吴恩达主讲的 CS299 Machine Learning 的 EM课件，相比之下《统计学习方法》这本书在 Jensen‘s inequality（琴声不等式）讲的不够详细，其他都差不多，只是Q函数定义不同，这两种定义都很流行所以后文也会介绍区别。

正文

9.1 EM算法的引入

概率模型有时既含有观测变量（observable variable） ，又含有隐变量（hidden variable）或潜在变量（latent variable） 。

如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法或贝叶斯估计法估计模型参数。但是，当模型含有隐变量时，就不能简单地使用这些估计方法。 EM算法就是含有隐变量的概率模型参数的极大似然估计法，或极大后验概率估计法。我们仅讨论极大似然估计，极大后验概率估计与其类似。

9.1.1 EM算法

这里，随机变量 $y$ 是观测变量，表示一次试验观测的结果是1或0；随机变量 $z$ 是隐变量，表示未观测到的掷硬币 $A$ 的结果； $θ ＝ (π, p ， q)$ 是模型参数。这一模型是以上数据的生成模型。注意，随机变量 $y$ 的数据可以观测，随机变量 $z$ 的数据不可观测。

\begin{aligned} P (y | θ) & = \sum_{z} P (y, z | θ) = \sum_{z} \frac{P (z, θ)}{P (θ)} \cdot \frac{P (y, z, θ)}{P (z, θ)} = \sum_{z} P (z | θ) P (y | z, θ) \\ = P (z = 1 | θ) P (y | z = 1, θ) + P (z = 0 | θ) P (y | z = 0, θ) \\ (9.1) & = π p^{y} (1 - p)^{(1 - y)} + (1 - π) q^{y} (1 - q)^{(1 - y)} \\ = {\begin{cases} π p + (1 - π) q, & y = 1 \\ π (1 - p) + (1 - π) (1 - q), & y = 0 \end{cases} \end{aligned}

将观测数据表示为

Y ＝ (Y_{1} ， Y_{2}, \dots, Y_{n})^{T}

，未观测数据表示为

Z ＝ (Z_{1}, Z_{2}, \dots, Z_{n})^{T}

，则观测数据的似然函数为

\begin{matrix} (9.2) & P (Y | θ) = \sum_{Z} P (Y, Z | θ) = \sum_{Z} P (Z | θ) P (Y | Z, θ) \end{matrix}

即：

\begin{matrix} (9.3) & P (Y | θ) = \prod_{j = 1}^{n} {π p^{y_{j}} (1 - p)^{(1 - y_{j})} + (1 - π) q^{y_{j}} (1 - q)^{(1 - y_{j})}} \end{matrix}

考虑求模型参数

θ = (π, p, q)

的极大似然估计，即：

\begin{aligned} \hat{θ} & = \underset{θ}{\arg max} l o g P (Y | θ) \\ = \underset{θ}{\arg max} \log \prod_{j = 1}^{n} P (Y | θ) \Leftarrow n次抛硬币试验都是独立 \\ = \underset{θ}{\arg max} \sum_{j = 1}^{n} \log P (Y | θ) \\ (9-3) & = \underset{θ}{\arg max} \sum_{j = 1}^{n} \log {\sum_{Z} P (Z | θ) P (Y | Z, θ)} \end{aligned}

问题：这里为什么要取对数？

取对数之后累积变为累和，求导更加方便（后面三硬币例子解析将会看到）
概率累积会出现数值非常小的情况，比如1e-30，由于计算机的精度是有限的，无法识别这一类数据，取对数之后，更易于计算机的识别(1e-30以10为底取对数后便得到-30)。

这个问题没有解析解，因为隐变量数据无法获得，只有通过迭代的方法求解。 EM算法就是可以用于求解这个问题的一种迭代算法。

一般地，用 $Y$ 表示观测随机变量的数据， $Z$ 表示隐随机变量的数据。 $Y$ 和 $Z$ 连在一起称为完全数据（complete-data） ，观测数据 $Y$ 又称为不完全数据（incomplete-data） 。假设给定观测数据 $Y$ ，其概率分布是 $P (Y | θ)$ ，其中是需要估计的模型参数，那么不完全数据 $Y$ 的似然函数是 $P (Y | θ)$ ，对数似然函数 $L (θ) ＝ l o g P (Y | θ)$ ；假设 $Y$ 和 $Z$ 的联合概率分布是 $P (Y, Z | θ)$ ，那么完全数据的对数似然函数是 $l o g P (Y, Z | θ)$ 。

9.1.2 EM算法的导出

注：书上给出琴声不等式（ $\ln \sum_{j} λ_{j} y_{j} \geq \sum_{j} λ_{j} \log y_{j}, λ_{j} \geq 0, \sum_{j} λ_{j} = 1$ ），自行维基百科一下了解详情。最后一步源自于 $Z$ 所有可能取值的概率和为1

l o g P (Y | θ^{(i)}) = l o g P (Y | θ^{(i)}) \cdot \sum_{Z} P (Z | Y, θ^{(i)})

\begin{aligned} θ^{(i + 1)} & = \underset{θ}{\arg max} {L (θ^{(i)}) + \sum_{Z} P (Z | Y, θ^{(i)}) l o g \frac{P (Y | Z, θ) P (Z | θ)}{P (Z | Y, θ^{(i)}) P (Y | θ^{(i)})}} \\ = \underset{θ}{\arg max} {l o g P (Y | θ^{(i)}) \sum_{Z} P (Z | Y, θ^{(i)}) + \sum_{Z} P (Z | Y, θ^{(i)}) l o g \frac{P (Y | Z, θ) P (Z | θ)}{P (Z | Y, θ^{(i)}) P (Y | θ^{(i)})}} \end{aligned}

加号右边，利用对数函数的性质得到：

\begin{aligned} \sum_{Z} P (Z | Y, θ^{(i)}) l o g \frac{P (Y | Z, θ) P (Z | θ)}{P (Z | Y, θ^{(i)}) P (Y | θ^{(i)})} \\ = \sum_{Z} P (Z | Y, θ^{(i)}) {l o g [P (Y | Z, θ) P (Z | θ)] - l o g [P (Z | Y, θ^{(i)}) P (Y | θ^{(i)})]} \\ = \sum_{Z} P (Z | Y, θ^{(i)}) {l o g [P (Y | Z, θ) P (Z | θ)] - l o g P (Z | Y, θ^{(i)}) - l o g P (Y | θ^{(i)})} \\ = \sum_{Z} P (Z | Y, θ^{(i)}) l o g [P (Y | Z, θ) P (Z | θ)] - \sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Z | Y, θ^{(i)}) - \sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Y | θ^{(i)}) \end{aligned}

代入上式可得：

\begin{aligned} θ^{(i + 1)} & = \underset{θ}{\arg max} {\sum_{Z} P (Z | Y, θ^{(i)}) l o g [P (Y | Z, θ) P (Z | θ)] - \sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Z | Y, θ^{(i)})} \end{aligned}

由于在迭代求第 $i + 1$ 步时， $θ^{(i)}$ 是已知的，那么由训练数据中可以求得 $P (Z | Y, θ^{(i)})$ ，所以在 $θ^{(i)}$ 值确定的情况下， $P (Z | Y, θ^{(i)})$ 的值也是确定的而不是变量，那么对上式极大化等价求解对下面式子的极大化

\begin{aligned} θ^{(i + 1)} & = \underset{θ}{\arg max} {\sum_{Z} P (Z | Y, θ^{(i)}) l o g [P (Y | Z, θ) P (Z | θ)]} \\ = \underset{θ}{\arg max} {\sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Y, Z | θ)} \\ (9.17) & = \underset{θ}{\arg max} Q (θ, θ^{(i)}) \end{aligned}

Q函数

EM算法

EM算法解释

9.1.3 EM算法在非监督学习中的应用

9.2 EM算法的收敛性

这一部分原书讲的比较详细，不画蛇添足，贴上来。

三硬币例子解析

前文讲到抛硬币的例子，现在重新详细推导一下三硬币这个例子。

$j$ 是训练集中的数据编号，实际上书上这里求得是

\begin{aligned} P (Z | y_{j}, θ^{(i)}) = {\begin{cases} P (Z = 1 | y_{j}, θ^{(i)}) = μ_{j}^{(i + 1)} \\ P (Z = 0 | y_{j}, θ^{(i)}) = 1 - μ_{j}^{(i + 1)} \end{cases} \end{aligned}

前文已知Q函数：

Q (θ, θ^{(i)}) = \sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Y, Z | θ)

第一步求期望

即求Q函数，由本文开头的 9.1.1 EM算法这一节的公式 (9-3) 和 Q函数得到，在多个样本情况下 Q 函数为：

\begin{aligned} Q (θ, θ^{(i)}) & = \sum_{j = 1}^{n} \sum_{Z} P (Z | y_{j}, θ^{(i)}) \log P (y_{j}, Z | θ) \\ = \sum_{j = 1}^{n} {P (Z = 1 | y_{j}, θ^{(i)}) l o g P (y_{j}, Z = 1 | θ) + P (Z = 0 | y_{j}, θ^{(i)}) l o g P (y_{j}, Z = 0 | θ)} \\ = \sum_{j = 1}^{n} {μ_{j}^{(i + 1)} l o g P (y_{j}, Z = 1 | θ) + (1 - μ_{j}^{(i + 1)}) l o g P (y_{j}, Z = 0 | θ)} \\ = \sum_{j = 1}^{n} {μ_{j}^{(i + 1)} \log [π p^{y_{j}} (1 - p)^{1 - y_{j}}] + (1 - μ_{j}^{(i + 1)}) \log [(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}]} \end{aligned}

第二步极大化Q函数

$\begin{aligned} θ^{(i + 1)} = \underset{θ}{\arg max} Q (θ, θ^{(i)}) = \underset{θ}{\arg max} {\sum_{j = 1}^{n} \sum_{Z} P (Z | y_{j}, θ^{(i)}) \log P (y_{j}, Z | θ)} \end{aligned}$ 用微积分求解最大值，先求导数为0点（为了求导方便令对数的底数为e，即认为此处对数函数为自然对数）：

\begin{aligned} \frac{\partial Q (θ, θ^{(i)})}{\partial π} & = \sum_{j = 1}^{N} {\frac{μ_{j}^{(i + 1)} \ln [π p^{y_{j}} (1 - p)^{1 - y_{j}}] + (1 - μ_{j}^{(i + 1)}) \ln [(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}]}{\partial π}} \\ = \sum_{j = 1}^{N} {μ_{j}^{(i + 1)} \frac{p^{y_{j}} (1 - p)^{1 - y_{j}}}{π p^{y_{j}} (1 - p)^{1 - y_{j}}} + (1 - μ_{j}^{(i + 1)}) \frac{- q^{y_{j}} (1 - q)^{1 - y_{j}}}{(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}}} \\ = \sum_{j = 1}^{N} {\frac{μ_{j}^{(i + 1)} - π}{π (1 - π)}} \\ = \frac{(\sum_{j = 1}^{N} μ_{j}^{(i + 1)}) - n π}{π (1 - π)} \end{aligned}

\begin{aligned} ∵ \frac{\partial Q (θ, θ^{(i)})}{\partial π} = 0 & ⟹ π = \frac{1}{n} \sum_{j = 1}^{N} μ_{j}^{(i + 1)} \\ ∴ π^{(i + 1)} & = \frac{1}{n} \sum_{j = 1}^{N} μ_{j}^{(i + 1)} \end{aligned}

\begin{aligned} \frac{\partial Q (θ, θ^{(i)})}{\partial p} & = \sum_{j = 1}^{N} {\frac{μ_{j}^{(i + 1)} \ln [π p^{y_{j}} (1 - p)^{1 - y_{j}}] + (1 - μ_{j}^{(i + 1)}) \ln [(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}]}{\partial p}} \\ = \sum_{j = 1}^{N} {μ_{j}^{(i + 1)} \frac{π (y_{j} p^{y_{j} - 1} (1 - p)^{1 - y_{j}} + p^{y_{j}} (- 1) (1 - y_{j}) (1 - p)^{1 - y_{j} - 1})}{π p^{y_{j}} (1 - p)^{1 - y_{j}}} + 0} \\ = \sum_{j = 1}^{N} {\frac{μ_{j}^{(i + 1)} (y_{j} - p)}{p (1 - p)}} \\ = \frac{(\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}) - (p \sum_{j = 1}^{N} μ_{j}^{(i + 1)})}{p (1 - p)} \end{aligned}

\begin{aligned} ∵ \frac{\partial Q (θ, θ^{(i)})}{\partial p} = 0 & ⟹ p = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}}{\sum_{j = 1}^{N} μ_{j}^{(i + 1)}} \\ ∴ p^{(i + 1)} & = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}}{\sum_{j = 1}^{N} μ_{j}^{(i + 1)}} \\ q^{(i + 1)} & = \frac{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j}}{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)})} \end{aligned}

可以参照书上的结果，一模一样：

CS299 EM算法与《统计学习方法》的表述不同点

《统计学习方法》这部分术语源自于鼎鼎大名的ESL 全称：The Elements of Statistical Learning，这也是Stanford统计经典巨作。
Stanford 吴恩达主讲的 CS299 Machine Learning 的 EM课件

由本文的推导，易得 ESL 中的 $Q_{E S L} = Q_{C S 299} \frac{\log P (X, Z; θ)}{Q_{C S 299}}$

9.3 EM算法在高斯混合模型学习中的应用

EM算法的一个重要应用是高斯混合模型的参数估计。高斯混合模型应用广泛，在许多情况下， EM算法是学习高斯混合模型（Gaussian misture model）的有效方法。

9.3.1 高斯混合模型

9.3.2 高斯混合模型参数估计的EM算法

注意：上面的极大化的求混合模型参数迭代公式的过程参考：大牛JerryLead 的（EM算法）The EM Algorithm

与K-means比较

相同点：都是可用于聚类的算法；都需要指定K值。

不同点：GMM可以给出一个样本属于某类的概率是多少。

9.4 EM算法的推广

EM算法还可以解释为F函数（F function）的极大-极大算法（maximization maximization algorithm） ，基于这个解释有若干变形与推广，如广义期望极大（generalized expectation maximization，GEM） 算法。

注：原文引理(9.1)(9.2)的证明有坑需要注意，先看原文，后面列出详细过程

9.4.1 F函数的极大-极大算法

熵这块，不清楚的可以回顾一下我的另一篇总结：《机器学习中的信息论基础》。

引理9.1需要更详细说明：

L = E_{\tilde{p}} \log P (Y, Z | θ) - E_{\tilde{p}} \log \tilde{P} (Z) + λ {1 - \sum_{Z} \tilde{P} (Z)}

证明过程思路：拉格朗日求有约束的极大值。需要注意，由累加号和均值可以看出这里的

Z

是指

Z_{i}, i

这里是

Z

的离散值的标号，因此需要重写公式 (9.35) 比较清楚：

L = \sum_{Z_{i}} \tilde{P} (Z_{i}) \log P (Y, Z_{i} | θ) - \sum_{Z_{i}} \tilde{P} (Z_{i}) \log \tilde{P} (Z_{i}) + λ {1 - \sum_{Z_{i}} \tilde{P} (Z_{i})}

所以这里其实是

L

关于

P (Z_{i})

的求导（这里作者求导的时候把对数函数默认当做自然对数）：

\begin{aligned} \frac{\partial L}{\partial \tilde{P} (Z_{i})} = \log P (Y, Z_{i} | θ) - \log \tilde{P} (Z_{i}) - 1 - λ \\ ∵ \frac{\partial L}{\partial \tilde{P} (Z_{i})} = 0 \\ ∴ λ = \log P (Y, Z_{i} | θ) - \log \tilde{P} (Z_{i}) - 1 \end{aligned}

上式两端同取对数：

\begin{aligned} λ + 1 & = \log P (Y, Z_{i} | θ) - \log \tilde{P} (Z_{i}) \\ \Rightarrow e^{λ + 1} = \frac{P (Y, Z_{i} | θ)}{\tilde{P} (Z_{i})} \\ (9-1) & \Rightarrow \tilde{P} (Z_{i}) = \frac{P (Y, Z_{i} | θ)}{e^{λ + 1}} \end{aligned}

由离散变量的概率和为1，得到：

\begin{aligned} \sum_{Z_{i}} e^{λ + 1} & = \frac{\sum_{Z_{i}} P (Y, Z_{i} | θ)}{\sum_{Z_{i}} \tilde{P} (Z_{i})} \Rightarrow \\ (9-2) & e^{λ + 1} & = P (Y | θ) \end{aligned}

将 (9-2) 代入 (9-1) 式，得到

\begin{aligned} \tilde{P} (Z_{i}) & = \frac{P (Y, Z_{i} | θ)}{P (Y | θ)} \\ = \frac{P (Y, Z_{i}, θ)}{p (θ)} \frac{P (θ)}{P (Y, θ)} \\ = P (Z_{i} | Y, θ) \end{aligned}

这里前提条件是

θ

是固定情况下的推导过程，所以原文给上式标记出了

θ

，又因为每个

Z_{i}

都符合这个式子，那么可重写上式：

{\tilde{P}}_{θ} (Z) = P (Z | Y, θ)

这样引理9.1证明完毕。

引理9.2如下

由公式 $(9.33)$ 和 $(9.34)$ :

F (\tilde{P}, θ) = E_{\tilde{p}} [\log P (Y, Z | θ)] + H (\tilde{P}) {\tilde{P}}_{θ} (Z) = P (Z | Y, θ)

得到：

\begin{aligned} F (\tilde{P}, θ) & = \sum_{Z} {\tilde{P}}_{θ} (Z) \log P (Y, Z | θ) - \sum_{Z} {\tilde{P}}_{θ} (Z) \log {\tilde{P}}_{θ} (Z) \\ = \sum_{Z} P (Z | Y, θ) \log P (Y, Z | θ) - \sum_{Z} P (Z | Y, θ) \log P (Z | Y, θ) \\ = \sum_{Z} P (Z | Y, θ) [\log P (Y, Z | θ) - \log P (Z | Y, θ)] \\ = \sum_{Z} P (Z | Y, θ) \log \frac{P (Y, Z | θ)}{P (Z | Y, θ)} \\ = \sum_{Z} P (Z | Y, θ) \log {\frac{P (Y, Z, θ)}{p (θ)} \frac{P (Y, θ)}{P (Y, Z, θ)}} \\ = \sum_{Z} P (Z | Y, θ) \log P (Y | θ) \\ = \log P (Y | θ) \end{aligned}

引理9.2证明完毕

9.4.2 GEM算法

本章概要

引用

The Expectation Maximization Algorithm: A short tutorial - Sean Borman
李航《统计学习方法》
大牛JerryLead 的（EM算法）The EM Algorithm
人人都懂EM算法
EM算法简述及简单示例（三硬币模型）

</div>

posted @ 2020-11-06 17:54 Le1B_o 阅读(210) 评论(0) 编辑收藏举报

刷新页面返回顶部

LeeB_o

EM算法

前言

正文

9.1 EM算法的引入

9.1.1 EM算法

9.1.2 EM算法的导出

Q函数

EM算法

EM算法解释

9.1.3 EM算法在非监督学习中的应用

9.2 EM算法的收敛性

三硬币例子解析

第一步求期望

第二步极大化Q函数

CS299 EM算法与《统计学习方法》的表述不同点

9.3 EM算法在高斯混合模型学习中的应用

9.3.1 高斯混合模型

9.3.2 高斯混合模型参数估计的EM算法

与K-means比较

9.4 EM算法的推广

9.4.1 F函数的极大-极大算法

9.4.2 GEM算法

本章概要

引用

公告