latent dirichlet allocation

一、Dirichlet-Multinomial共轭

二、LDA=PLSA(Probabilistic Latent Semantic Analysis)+bayes

三、训练方法有gibbs sampling(吉布斯采样)和variation inference-EM算法(变分推断-EM算法)

四、LDA将document-term矩阵分解成topic-term矩阵和document-topic矩阵

五、应用

1.衡量文档之间的语义相似性。首先,对一篇文档,我们利用LDA求出的主题分布可以看作是对该文档的一个抽象表示。其次,KL散度可以衡量分布之间的相似性,可以利用KL来计算两篇文档的相似度。

 

 

 

  • 其中, p(x) 是目标分布,q(x)是去匹配的分布,如果两个分布完全匹配,那么DKL=0。散度越小说明分布的相似度越高。
  • KL 散度是非对称,即 DKL(p||q) 不一定等于 DKL(q||p) 。另外KL散度也不满足三角不等式。
  • KL 散度常作为优化的目标。

2.推荐系统。计算物品的内容相似度:计算物品在话题上的分布,由1可以计算物品的相似度。

3.在微博推荐&广告算法中的应用

 

注:

  • 使用LFM隐语义模型进行top-N推荐

六、参考

 

posted @ 2019-10-26 21:20  熊猫blue  阅读(345)  评论(0编辑  收藏  举报