2011年8月19日

全文检索、数据挖掘、推荐引擎系列---去除停止词添加同义词

摘要: Lucene对文本解析是作为全文索引及全文检索的预处理形式出现的,因此在一般的Lucene文档中,这一部分都不是重点,往往一带而过,但是对于要建立基于文本的内容推荐引擎来说,却是相当关键的一步,因此有必要认真研究一下Lucene对文解析的过程。Lucene对文本的解析对用户的接口是Analyzer的某个子类,Lucene内置了几个子类,但是对于英文来说StandardAnalyzer是最常用的一个子类,可以处理一般英文的文解析功能。但是对于汉字而言,Lucene提供了两个扩展包,一个是CJKAnalyzer和SmartChineseAnalyzer,其中SmartAnalyzer对处理中文分词 阅读全文

posted @ 2011-08-19 17:13 最老程序员闫涛 阅读(2500) 评论(2) 推荐(4) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用11

摘要: 股权激励之惑终于通过程序可以把京成商城所有产品的页面全都通过网络爬虫程序全部下载到本地来了,吴言心满意足坐在了电脑椅的靠背上,这才发现自己已经足足一动不动的在这编了将近五个小时的程序了,好累呀,吴言很有成就感地伸了一个懒腰。“哎呦!”吴言不小心把堆在电脑桌上最上面的一本书碰到的地上,低头一看,那本书打开了扣在地上,原来是于丹的论语心得。吴言弯腰把书捡了起来,一看翻开的章节正是在讲“君子不器”的那一页,此时看到这句,吴言感慨颇深。记得自己刚开始工作时,对于工作的认识只是VC、VB、Java以及数据库读写等,没有独立工作的机会,那时的自己还不能称之为器,因为还缺乏独立工作的能力。后来,自己对工作的 阅读全文

posted @ 2011-08-19 08:58 最老程序员闫涛 阅读(3196) 评论(12) 推荐(10) 编辑

导航