摘要: 本博客部分文章迁移至我的个人网站,新站点http://www.dianacody.com,网站将持续关注Search Engine, Machine Learning, NLP相关领域。欢迎访问。 阅读全文
posted @ 2015-01-19 22:10 DianaCody 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 一、中文分词 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分... 阅读全文
posted @ 2014-11-09 15:28 DianaCody 阅读(2972) 评论(0) 推荐(0) 编辑
摘要: EM, ExpectationMaximization Algorithm, 期望最大化算法。一种迭代算法,用于含有隐变量(hidden variable)的概率参数模型的最大似然估计或极大后验概率估计,其概率模型依赖于无法观测的隐变量。 经常用在ML与计算机视... 阅读全文
posted @ 2014-11-09 13:56 DianaCody 阅读(1171) 评论(0) 推荐(0) 编辑
摘要: -----pLSA概率潜在语义分析、LDA潜在狄瑞雷克模型 一、pLSA(概率潜在语义分析) pLSA: -------有过拟合问题,就是求D, Z, W pLSA由LSA发展过来,而早期LSA的实现主要是通过SVD分解。pLSA的模型图如下: 公式中的意义如下:... 阅读全文
posted @ 2014-11-04 14:47 DianaCody 阅读(1174) 评论(0) 推荐(0) 编辑
摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让搜索更加智能化。主题模型是对文字隐含主题进行建模的方法,其克服传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。 关键词:主题模型 技术... 阅读全文
posted @ 2014-11-04 09:24 DianaCody 阅读(1197) 评论(0) 推荐(0) 编辑
摘要: 推荐系统: 1.基于内容的实现:KNN等 2.基于协同滤波(CF)实现:SVD → pLSA(从LSA发展而来,由SVD实现)、LDA、GDBT SVD算是比较老的方法,后期演进的主题模型主要是pLSA和LDA。pLSA主要基于EM最大期望算法,而LDA主要基于Gibbs抽样算法... 阅读全文
posted @ 2014-11-04 09:18 DianaCody 阅读(8310) 评论(0) 推荐(0) 编辑
摘要: Apriori算法的一个主要瓶颈在于,为了获得较长的频繁模式,需要生成大量的候选短频繁模式。FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式。目前,在数据挖掘领域,Apriori和FP-Growth算法的引用次数均位列三甲。 FP的全称是Freque... 阅读全文
posted @ 2014-11-04 09:12 DianaCody 阅读(3956) 评论(0) 推荐(0) 编辑
摘要: 一、Apriori原理 Apriori是关联分析中较早的一种方法,主要用来挖掘那些频繁项集合,其思想是: 1.如果一个项目集合不是频繁集合,那么任何包含它的项目(超集)也一定不是频繁集。 2.如果一个项目集合是频繁集合,那么它的任何非空子集(子集)也是频繁集合。 二、关联分析... 阅读全文
posted @ 2014-11-03 20:40 DianaCody 阅读(621) 评论(0) 推荐(0) 编辑
摘要: 一、聚类 1.基于划分的聚类:k-means、k-medoids(每个类别找一个样本来代表)、Clarans 2.基于层次的聚类:(1)自底向上的凝聚方法,比如Agnes (2)自上而下的分裂方法... 阅读全文
posted @ 2014-11-03 08:49 DianaCody 阅读(813) 评论(0) 推荐(0) 编辑
摘要: AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。 AdaBoost其实只是boost的一个特例。 一、流程图 1. 要训练出多个弱分类器(图中为3... 阅读全文
posted @ 2014-11-03 07:58 DianaCody 阅读(2340) 评论(0) 推荐(0) 编辑