EM算法
(草稿状态)
一、基本思想
EM算法是一种迭代优化策略。E为期望,M为极大化。主要是解决数据缺失时参数估计的问题。其基本思想是根据观测值估计模型参数的值,再根据参数值估计缺失值,再用缺失值和观测值重新估计参数值,反复迭代,直至收敛。
数据添加算法有很多,如神经网络你和、添补法、卡尔曼滤波法等,EM算法相较而言,更加简单稳定。
二、基础概念
1. 极大似然估计
已知:样本分布模型,随机抽取的样本
未知:模型参数
假设要求学校男生女生的身高分布,随机在校园里分别抽取100个男生和女生,分成两。假设男生的身高服从正态分布,参数为μ和方差σ2,要求的未知参数即θ=[μ,σ]T。
样本集:X=x1 , x2 , x3 , x4 ……xN ,其中N=100,p(xi|θ)为概率密度函数,表示抽到男生xi身高的概率。样本独立,所以抽到100个男生的概率就是各自概率的乘积。