高斯混合模型
1.概述
有一组数据D,这组数据来自来个高斯分布,并且模型是两个高斯分布的求和或混合,
G1 = N(u1,σ1)
G2 = N(u2,σ2)
y = pG1 + (1-p)G2
其中u1,u2,σ1,σ2,p均为未知数
2.求解过程
3.主题模型LDA,PLSA
对于语料库中的每篇文档,LDA定义了如下生成过程
(1).对每篇文档,从主题分布中抽取一个主题
(2).从上述被抽到的主题所对应的单词分布中抽取一个单词
(3).重复上述过程直至便利文档中的每一个单词
学习过程
(1).针对一个特定的文档ds中第i个单词wi,如果令该单词对应的topic为tj,可以把上述公式改写为: Pj(Wi|ds)=P(Wi|tj)*P(tj|ds)
(2).现在我们可以枚举T中topic,得到所有的pj(wi|ds).然后可以根据这些概率值结果为ds中第i个单词wi选择一个topic,最简单的想法是取令pj(wi|ds)最大的tj
(3).然后,如果ds中的第i个单词wi在这里选择了一个与原先不同的topic,就会对θd和φt有影响了,它们的影响会反过来影响对上面提到的p(w|d)的计算,对D中所有的d中的所有w进行一次p(w|d)的计算并重新选择topic看作一次迭代,若此循环直至收敛