关于topic model

topic model的形成或许说是种偶然, 试想如果你有很多的文档, 可以得到足够让自己自信的tf-idf的数据, 并且你的机器足够的快, 那么用tf-idf我们就已经可以做很多有意义的事情了, 你可以用n多维度的词向量来表示一个文档(n是你词条数目)。

topic model的形成, 某种意义上是对tf-idf计算文档相似度时,降维的一种表现,而降维带来了的最大好处,就是无法清除描述的latent samentic space, 于是这个latent samentic space就形成了一个所谓的topic,于是topic model就出来了。

Hoffman、 Blei。 LSI -> PLSI -> LDA,火热的topic model, 终于渐渐的还是冷静下来了。latent space没有很大的确定性,就像用lsi、plsi、lda跑出来的聚类,你无法用言语清楚诠释其具体代表了哪个topic,更多时候我们说要训200个topic,我们只是把文档d原本几万的词向量,映射到了一个200维的空间上,这样降维了,计算机能比较快速告诉你结果了。更多时候它更像是一种featrue,而不是一种工具。

有大师说过:自然语言处理,归根结底就是字符窜的处理。 真是言之有理,topic model再怎么牛,依旧还是bag of words。

例如文档分类,你想加上topic model的200维的featrue 再用svm搞起一下,可谁知道,没有topic model的feature时候,其precision已然90%以上,在假设有足够多的训练样本的情况下,naive bayes classification简单高效高精确率高recall, 要多加你200维的topic model feature何用也?

当然,我这么说不是否认topic model的作用,毕竟ML/SIGIR上的文章。也就是概叹,自己做的东西,用svm已经可以很好了,加了topic model feature无大作用也。

纯属个人见解,学艺不精,眼界不广,有错之地还望海涵。

posted on 2011-05-19 10:02  amojry  阅读(516)  评论(0编辑  收藏  举报