latent dirichlet allocation
一、Dirichlet-Multinomial共轭
二、LDA=PLSA(Probabilistic Latent Semantic Analysis)+bayes
三、训练方法有gibbs sampling(吉布斯采样)和variation inference-EM算法(变分推断-EM算法)
四、LDA将document-term矩阵分解成topic-term矩阵和document-topic矩阵
五、应用
1.衡量文档之间的语义相似性。首先,对一篇文档,我们利用LDA求出的主题分布可以看作是对该文档的一个抽象表示。其次,KL散度可以衡量分布之间的相似性,可以利用KL来计算两篇文档的相似度。
- 其中, p(x) 是目标分布,q(x)是去匹配的分布,如果两个分布完全匹配,那么DKL=0。散度越小说明分布的相似度越高。
- KL 散度是非对称,即 DKL(p||q) 不一定等于 DKL(q||p) 。另外KL散度也不满足三角不等式。
- KL 散度常作为优化的目标。
2.推荐系统。计算物品的内容相似度:计算物品在话题上的分布,由1可以计算物品的相似度。
注:
- 使用LFM隐语义模型进行top-N推荐
六、参考