关于topic model

topic model的形成或许说是种偶然，试想如果你有很多的文档，可以得到足够让自己自信的tf-idf的数据，并且你的机器足够的快，那么用tf-idf我们就已经可以做很多有意义的事情了，你可以用n多维度的词向量来表示一个文档（n是你词条数目）。

topic model的形成，某种意义上是对tf-idf计算文档相似度时，降维的一种表现，而降维带来了的最大好处，就是无法清除描述的latent samentic space，于是这个latent samentic space就形成了一个所谓的topic，于是topic model就出来了。

Hoffman、 Blei。 LSI -> PLSI -> LDA，火热的topic model，终于渐渐的还是冷静下来了。latent space没有很大的确定性，就像用lsi、plsi、lda跑出来的聚类，你无法用言语清楚诠释其具体代表了哪个topic，更多时候我们说要训200个topic，我们只是把文档d原本几万的词向量，映射到了一个200维的空间上，这样降维了，计算机能比较快速告诉你结果了。更多时候它更像是一种featrue，而不是一种工具。

有大师说过：自然语言处理，归根结底就是字符窜的处理。真是言之有理，topic model再怎么牛，依旧还是bag of words。

例如文档分类，你想加上topic model的200维的featrue 再用svm搞起一下，可谁知道，没有topic model的feature时候，其precision已然90%以上，在假设有足够多的训练样本的情况下，naive bayes classification简单高效高精确率高recall，要多加你200维的topic model feature何用也？

当然，我这么说不是否认topic model的作用，毕竟ML/SIGIR上的文章。也就是概叹，自己做的东西，用svm已经可以很好了，加了topic model feature无大作用也。

纯属个人见解，学艺不精，眼界不广，有错之地还望海涵。

posted on 2011-05-19 10:02 amojry 阅读(516) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

了了JIANG

关于topic model

导航

公告