Latent Dirichlet Allocation Introduction
LDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测
的数据,LDA可以随机生成一篇由N 个主题组成文章。通过对文本的建模,我们可以对文本
进行主题分类,判断相似度等。在90 年代提出的 LSA 中,通过对向量空间进行降维,获得
文本的潜在语义空间。在 LDA 中则是通过将文本映射到主题空间,即认为一个文章有若干
主题随机组成,从而获得文本间的关系。LDA 模型有一个前提:bag of word。意思就是认为
文档就是一个词的集合,忽略任何语法或者出现顺序关系。
LDA的建模过程是逆向通过文本集合建立生成模型,在讨论如何建模时,我们先要理解 LDA
的生成模型如何生成一篇文档。
假设一个语料库中有三个主题:体育,科技,电影
一篇描述电影制作过程的文档,可能同时包含主题科技和主题电影,而主题科技中有一系列
的词,这些词和科技有关,并且他们有一个概率,代表的是在主题为科技的文章中该词出现
的概率。同理在主题电影中也有一系列和电影有关的词,并对应一个出现概率。当生成一篇
关于电影制作的文档时,首先随机选择某一主题,选择到科技和电影两主题的概率更高;然
后选择单词,选择到那些和主题相关的词的概率更高。这样就就完成了一个单词的选择。不
断选择N个单词,这样就组成了一篇文档。
Blog: http://foreveralbum.yo2.cn