EM算法

Expectation-Maximization: 最大似然估计法,根据已知样本分布的模型和观测的样本,最终得出模型的参数。

也就是:已知:(1)样本服从分布的模型(2)观测到的样本    求解:模型的参数 

  第一种情况:样本服从的模型都一样,只需要一种参数即可;如:样本的男生身高服从正态分布。

  第二种情况:样本服从的模型都一样,但是需要多种参数;如:样本的男生和女生身高都服从正态分布,但是男生和女生的模型参数不一样。用数学的语言描述:抽取得到的每个样本都不知道是从哪个分布抽取的,此时的求解目标:男生和女生对应的身高的高斯分布的参数是多少 

  对于第二种情况,引入隐变量Z,用Z=0或Z=1标记样本来自哪个分布。

    最大似然函数:

      

 案列: 投掷两个硬币的正面朝上为分布A,多次投掷10下其正反的结果是:求 A和B正面朝上的概率

      正面次数       反面次数
        5         5
        9         1
        8         2
        4         6
        7         3

 

 

 

 

 

 

 

求解过程:

   1. 假设A0.6几率正面    B: 0.5几率正面 

   2. 投掷出55反的概率:pA=C(10,5)*(0.6^5)*(0.4^5)  pB=C(10,5)*(0.5^5)*(0.5^5) ,则每次选择硬币A的概率:pA/(pA+pB)=0.45  选择硬币B的概率1- pA=0.55 

   3. 列出每次的参数 (正面次数 X选择硬币A的概率   : 反面次数 X 选择硬币A的概率 )

       A          B
      2.2:2.2        2.8:2.8
      7.2:0.8        1.8:0.2
      5.9:1.5        2.1:0.5
      1.4:2.1        2.6:3.9
      4.5:1.9        2.5:1.1
    求和  21.3:8.6     求和 11.7:8.4

 

 

 

 

 

 

  

 

  4. 更新A正面朝上的概率:21.3/(21.3+8.6) = 0.71  B正面朝上的概率 11.7/(11.7+8.4) = 0.58

  5.重复 第2、3、4步骤,直到A  B正面朝上概率收敛,不再改变

posted @ 2019-04-16 14:30  丁赢川  阅读(295)  评论(0编辑  收藏  举报