主题模型之概率潜在语义分析（Probabilistic Latent Semantic Analysis）

上一篇总结了潜在语义分析（Latent Semantic Analysis, LSA），LSA主要使用了线性代数中奇异值分解的方法，但是并没有严格的概率推导，由于文本文档的维度往往很高，如果在主题聚类中单纯的使用奇异值分解计算复杂度会很高，使用概率推导可以使用一些优化迭代算法来求解。

Thomas Hofmann 于1998年根据似然原理定义了生成模型并由此提出了概率潜在语义分析模型（Probabilistic Latent Semantic Analysis），简称PLSA。

PLSA属于概率图模型中的生成模型，相关的模型还有语言模型中的一元模型（Unigram Model）、混合一元模型（Mixture of Unigrams Model）等。

首先对文集进行设定。假设文集的词典中共有V个词，词典向量为

一元模型中假设每篇文档的词都独立遵从于多项式分布，即假设词典中第i个词

下图中图（a）便是一元语言模型的概率图模型，而图（b）中是PLSA的概率图模型。

PLSA模型中与一元模型中假设词遵从多项式分布不同，PLSA模型中引入了潜层变量

PLSA模型的生成过程如下：

根据概率
根据概率
根据概率

当然每个模型都对文集有一定的假设，PLSA做了如下的假设：

并元
当已知潜性变量

PLSA最初是根据视面模型（Aspect Model）提出的，假设1与一元模型中的“一袋子词”的假设相似，假设2与PLSA定义的图模型的生成关系有关，PLSA的图模型类似于X->Z->Y这种模式，在贝叶斯网络中被称为间接因果影响（“Indirect Causal Effect”）。举个例子来说，X表示你口袋里有没有2块钱，Z表示你能不能买一只笔，Y表示你能不能参加考试。假如不知道你能不能买一支笔（Z），那么你口袋里有没有2块钱（X）将影响到你能不能参加考试（Y）。但是假如你已经知道你是否可以买一只笔（Z），则你口袋里有没有2块钱（X）就影响不到你能不能参加考试了（Y）。即已知变量Z，变量X和Y是独立的。

PLSA最终是要求得每个并元