2011 年 8月 26 日随笔档案 - 最老程序员闫涛

2011年8月26日

全文检索、数据挖掘、推荐引擎系列5---文章术语向量表示法

摘要：无论是要进行全文检索，还是对文章进行自动聚类分析，都需要将文章表示为术语向量（Term Vector），在Lucene内部就是通过术语向量来对文章进行索引和搜索的，但是Lucene没有向外提供合适的术语向量计算接口，所以对术语向量计算还必须我们自己来做。术语向量解述众所周知，一篇文章由一个个的单词组成，我们在进行文本处理时，首先进行中文分词，包括去除“的、地、得”等常用停止词，对关键词加上同义词，如缩写和全称，如果是英文可能还需要变为小写，去除复数和过去分词等，可能还需要提取词根，总之经过上述步聚的预处理，文章将变成由一系列单词组成的字符串数组。对一系统中的每一篇文章，我们首先计算每个单词的出阅读全文

posted @ 2011-08-26 17:17 最老程序员闫涛阅读(1749) 评论(3) 推荐(4) 编辑

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用16

摘要：工作中的细节吴言的新公司好像一切都进展得很顺利，经过一周左右的磨合时间，大家彼此都变得熟悉起来，每个人也基本进入了工作状态。吴言对此非常满意，第一次转型做管理的自己，在最关键的第一周并没有出现大的失误，这个小团队已经开始工作了。但是吴言还是注意到了一些问题，虽然这些问题很小，但是吴言觉得还是需要做些处理才行。吴言首先发现，李卫东的优点是做工作非常认真，他做出的功能模块，自己在测试时从来没出现过问题，有时即使故意输入些非法数据，程序也可以非常好的处理这些异常情况。对于这点吴言相当满意，觉得李卫东将来一定可以成为一个非常优秀的人才。但是李卫东也有一个缺点，就是基础知识不扎实，一遇到问题就会束手无策阅读全文

posted @ 2011-08-26 12:20 最老程序员闫涛阅读(3385) 评论(26) 推荐(12) 编辑

最老程序员闫涛

全文检索、数据挖掘、推荐引擎系列5---文章术语向量表示法

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用16

导航

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论