LDA笔记

看LDA的论文看了三四天了，记录。

以前写的，现在又看不懂了，只好又看了一遍，麻痹的，记录详细一点。

符号表示：

我们是想对主题-词语的概率建模：

但是此概率尤其是分母很难直接求解，则用Gibbs采样：

奉上lda的步骤：

theta是p(topic|docs)

phi是p(word|topic)

对于一篇文章，我们想要知道它包含的主题，就是求解theta。

对于一篇文章里的某个词语，我们想要知道它最可能的主题，就是求解theta * phi。

对于上面的采样，使用下面的步骤：

而上面的采样公式

为下面的公式（29）。

LDA的Gibbs采样公式：

《Latent Dirichlet Allocation》上LDA的推导是用EM算法来推导采样公式。（没看懂）

《Parameter estimation for text analysis》文章那么长。用p(z,w)即z和w的联合概率来求解采样公式。

接着：

《LDA数学八卦》里对于phi和theta的计算没用EM，而是 Dirichlet + Multinomial = Dirichlet的方法来计算LDA的Gibbs的采样公式。

所以：

采样步骤（根据实现LDA4j）：

要求解的是β到w的phi，和α到z的theta。

P(z|w) ----p(w,z)--> phi, theta。

theta是p(topic|docs)

phi是p(word|topic)

phi可以存贮下来做inference用，theta因为与具体的文档相关，即使存储下来也没用。inference时还要用Gibbs采样计算theta，这里在计算时，不再是根据训练数据了，而是根据根据已经训练好的主题索引z[][]。

主要是论文长、网上的博客水，所以看得晕了好几天。

ps：话说CSDN博客这几天好像挂了？

posted @ 2016-10-13 17:32 StevenLuke 阅读(182) 评论(0) 编辑收藏举报

刷新页面返回顶部

StevenLuke