统计学习方法九:EM算法
一、EM算法是什么?
EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计。
作用:简单直白的说,估计参数
是一种生成模型
(1)用在概率模型中
(2)含有隐变量
(3)用极大似然估计方法估计参数
个人理解,概率模型中的一些参数,通常是一些概率:
(1)如果概率模型中的变量全部可观测,那可以统计各个变量出现的次数,然后可以求取频率,用频率估计概率
(2)如果概率模型中存在着不可观测的隐变量,直接求频率可能会不可行,此时采用EM算法来求取参数。
按照什么标准极大化参数呢?
用Y表示观测随机变量的数据
用Z表示隐随机变量的数据
我们可观测到Y,Y通常是由Z生成的,而生成规则遵循概率模型,也就是概率模型中的参数。
我们希望找到这些的参数,这些参数使得出现观测序列Y的概率最大
算法思想:
二、算法步骤
1、初始化参数:给要估计的参数一个初始值
2、E步骤:根据现有的参数求期望
3、M步骤:期望最大化求参数的估计值
4、重复步骤2、3直到收敛