摘要: 本文是LDA主题模型的第三篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了EM算法,如果你对EM算法不熟悉,建议先熟悉EM算法的主要思想。LDA的变分推断EM算法求解,应用于Spark MLlib和Scikit-learn的LDA算法实现,因此值得好好理解。 1. 变分 阅读全文
posted @ 2018-12-04 11:54 磐石柳枝 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 本文是LDA主题模型的第二篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了基于MCMC的Gibbs采样算法,如果你对MCMC和Gibbs采样不熟悉,建议阅读之前写的MCMC系列MCMC(四)Gibbs采样。 1. Gibbs采样算法求解LDA的思路 首先,回顾LDA的模 阅读全文
posted @ 2018-12-04 11:51 磐石柳枝 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 在文本主题模型之潜在语义索引(LSI)中,我们讲到LSI主题模型使用了奇异值分解,面临着高维度计算量太大的问题。这里我们就介绍另一种基于矩阵分解的主题模型:非负矩阵分解(NMF),它同样使用了矩阵分解,但是计算量和处理速度则比LSI快,它是怎么做到的呢? 1. 非负矩阵分解(NMF)概述 非负矩阵分 阅读全文
posted @ 2018-12-04 11:45 磐石柳枝 阅读(505) 评论(0) 推荐(0) 编辑
摘要: 在前面我们讲到了基于矩阵分解的LSI和NMF主题模型,这里我们开始讨论被广泛使用的主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA)。注意机器学习还有一个LDA,即线性判别分析,主要是用于降维和分类的,如果大家需要了解这个LDA的信息,参看之前写的线 阅读全文
posted @ 2018-12-04 11:43 磐石柳枝 阅读(1792) 评论(0) 推荐(0) 编辑