2011年8月26日

全文检索、数据挖掘、推荐引擎系列5---文章术语向量表示法

摘要: 无论是要进行全文检索,还是对文章进行自动聚类分析,都需要将文章表示为术语向量(Term Vector),在Lucene内部就是通过术语向量来对文章进行索引和搜索的,但是Lucene没有向外提供合适的术语向量计算接口,所以对术语向量计算还必须我们自己来做。术语向量解述众所周知,一篇文章由一个个的单词组成,我们在进行文本处理时,首先进行中文分词,包括去除“的、地、得”等常用停止词,对关键词加上同义词,如缩写和全称,如果是英文可能还需要变为小写,去除复数和过去分词等,可能还需要提取词根,总之经过上述步聚的预处理,文章将变成由一系列单词组成的字符串数组。对一系统中的每一篇文章,我们首先计算每个单词的出 阅读全文

posted @ 2011-08-26 17:17 最老程序员闫涛 阅读(1745) 评论(3) 推荐(4) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用16

摘要: 工作中的细节吴言的新公司好像一切都进展得很顺利,经过一周左右的磨合时间,大家彼此都变得熟悉起来,每个人也基本进入了工作状态。吴言对此非常满意,第一次转型做管理的自己,在最关键的第一周并没有出现大的失误,这个小团队已经开始工作了。但是吴言还是注意到了一些问题,虽然这些问题很小,但是吴言觉得还是需要做些处理才行。吴言首先发现,李卫东的优点是做工作非常认真,他做出的功能模块,自己在测试时从来没出现过问题,有时即使故意输入些非法数据,程序也可以非常好的处理这些异常情况。对于这点吴言相当满意,觉得李卫东将来一定可以成为一个非常优秀的人才。但是李卫东也有一个缺点,就是基础知识不扎实,一遇到问题就会束手无策 阅读全文

posted @ 2011-08-26 12:20 最老程序员闫涛 阅读(3381) 评论(26) 推荐(12) 编辑

导航