2012 年 8月 1 日随笔档案 - xueliangliu

2012年8月1日

pLSA 浅析

摘要：刚读博的时候，就读到过pLSA的文章，当时对里面的概率，分布什么的，一头雾水。三年过去了，整理以往paper又发现当初打印的文章，竟然一下子看懂了。特意整理下，希望为以后看到这个东西的人，有点参考的作用。PLSA是个从文档中发现topic的算法，它认为文本可以分三个层次来理解。1，文档(d)；2，主题(z)；3，单词(w)，既一个文档包含若干主题，每个主题包含若干单词。从概率层面来讲，这里的包含其实是某种分布。也就是说，一个文档可以看做在一些主题上面的分布(P(z|d)，而每个主题看做在单词上面的某种分布(P(w|z))。 pLSA就是对这些分布进行建模。相信大部分人都可能理解之前的这些内容，阅读全文

posted @ 2012-08-01 02:28 xueliangliu 阅读(1808) 评论(0) 推荐(0) 编辑

xueliangliu

pLSA 浅析

导航

公告