随笔档案「2017年5月」 - 刘建平Pinard

EM算法原理总结

摘要：EM算法也称期望最大化（Expectation-Maximum,简称EM）算法，它是一个基础算法，是很多机器学习领域算法的基础，比如隐式马尔科夫算法（HMM）， LDA主题模型的变分推断等等。本文就对EM算法的原理做一个总结。 1. EM算法要解决的问题我们经常会从样本观察数据中，找出样本的模型参阅读全文

posted @ 2017-05-27 17:12 刘建平Pinard 阅读(104173) 评论(131) 推荐(33)

用scikit-learn学习LDA主题模型

摘要：在LDA模型原理篇我们总结了LDA主题模型的原理，这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型。除了scikit-learn, 还有spark MLlib和gensim库也有LDA主题模型的类库，使用的原理基本类似，本文关注于scikit-learn中LDA主题模型的使用阅读全文

posted @ 2017-05-26 15:23 刘建平Pinard 阅读(67947) 评论(115) 推荐(13)

文本主题模型之LDA(三) LDA求解之变分推断EM算法

摘要：文本主题模型之LDA(一) LDA基础文本主题模型之LDA(二) LDA求解之Gibbs采样算法文本主题模型之LDA(三) LDA求解之变分推断EM算法本文是LDA主题模型的第三篇，读这一篇之前建议先读文本主题模型之LDA(一) LDA基础，同时由于使用了EM算法，如果你对EM算法不熟悉，建议阅读全文

posted @ 2017-05-22 12:20 刘建平Pinard 阅读(32972) 评论(101) 推荐(11)

文本主题模型之LDA(二) LDA求解之Gibbs采样算法

摘要：文本主题模型之LDA(一) LDA基础文本主题模型之LDA(二) LDA求解之Gibbs采样算法文本主题模型之LDA(三) LDA求解之变分推断EM算法本文是LDA主题模型的第二篇，读这一篇之前建议先读文本主题模型之LDA(一) LDA基础，同时由于使用了基于MCMC的Gibbs采样算法，如果阅读全文

posted @ 2017-05-18 10:43 刘建平Pinard 阅读(55492) 评论(218) 推荐(10)

文本主题模型之LDA(一) LDA基础

摘要：文本主题模型之LDA(一) LDA基础文本主题模型之LDA(二) LDA求解之Gibbs采样算法文本主题模型之LDA(三) LDA求解之变分推断EM算法在前面我们讲到了基于矩阵分解的LSI和NMF主题模型，这里我们开始讨论被广泛使用的主题模型：隐含狄利克雷分布(Latent Dirichlet 阅读全文

posted @ 2017-05-17 14:37 刘建平Pinard 阅读(214473) 评论(105) 推荐(29)

文本主题模型之非负矩阵分解(NMF)

摘要：在文本主题模型之潜在语义索引(LSI)中，我们讲到LSI主题模型使用了奇异值分解，面临着高维度计算量太大的问题。这里我们就介绍另一种基于矩阵分解的主题模型：非负矩阵分解(NMF)，它同样使用了矩阵分解，但是计算量和处理速度则比LSI快，它是怎么做到的呢？ 1. 非负矩阵分解(NMF)概述非负矩阵分阅读全文

posted @ 2017-05-05 14:19 刘建平Pinard 阅读(31644) 评论(15) 推荐(9)

文本主题模型之潜在语义索引(LSI)

摘要：在文本挖掘中，主题模型是比较特殊的一块，它的思想不同于我们常用的机器学习算法，因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。 1. 文本主题模型的问题特点在数据分析中，我们经常会进行非监督学习的聚类算法，它可以对我们的特征数据进行非监督的聚类。而主题模型阅读全文

posted @ 2017-05-04 14:40 刘建平Pinard 阅读(40703) 评论(48) 推荐(11)

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

05 2017 档案

公告