摘要: -----pLSA概率潜在语义分析、LDA潜在狄瑞雷克模型 一、pLSA(概率潜在语义分析) pLSA: -------有过拟合问题,就是求D, Z, W pLSA由LSA发展过来,而早期LSA的实现主要是通过SVD分解。pLSA的模型图如下: 公式中的意义如下:... 阅读全文
posted @ 2014-11-04 14:47 DianaCody 阅读(1113) 评论(0) 推荐(0) 编辑
摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让搜索更加智能化。主题模型是对文字隐含主题进行建模的方法,其克服传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。 关键词:主题模型 技术... 阅读全文
posted @ 2014-11-04 09:24 DianaCody 阅读(1163) 评论(0) 推荐(0) 编辑
摘要: 推荐系统: 1.基于内容的实现:KNN等 2.基于协同滤波(CF)实现:SVD → pLSA(从LSA发展而来,由SVD实现)、LDA、GDBT SVD算是比较老的方法,后期演进的主题模型主要是pLSA和LDA。pLSA主要基于EM最大期望算法,而LDA主要基于Gibbs抽样算法... 阅读全文
posted @ 2014-11-04 09:18 DianaCody 阅读(8293) 评论(0) 推荐(0) 编辑
摘要: Apriori算法的一个主要瓶颈在于,为了获得较长的频繁模式,需要生成大量的候选短频繁模式。FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式。目前,在数据挖掘领域,Apriori和FP-Growth算法的引用次数均位列三甲。 FP的全称是Freque... 阅读全文
posted @ 2014-11-04 09:12 DianaCody 阅读(3917) 评论(0) 推荐(0) 编辑