java程序员-http://www.it-ebooks.info/

年轻的我,脚踩大地,仰望天空,路还很长....

博客园 首页 新随笔 联系 订阅 管理

问题的场景:  

解决方案:都是来自于科技论文

==============================================================================

场景:文本搜素如何做,基于数据库应该不行,比如找含有'语文'二次的word文档,一次一次的比较吗?不现实。

解决方案:Lunce

核心:索引--建立目录

   本质:hash机制:

        数组+链表的组合
理论知识:

  排序算法以tree结构

模拟器件:

  搜索器、索引器、检索器

编程模型:

  1、创建Directory对象,索引文件夹

  2、创建IndexSearch对象,建立查询(参数是Directory对象)

  3、创建QueryParser对象(lucene版本,查询Field字段,所用分词器)

  4、生成Query对象,由QueryParser对象的parse函数生成(参数是所查的关键字)

  5、建立TopDocs对象(IndexSearch的search函数,参数是Query查询对象,)

  6、TopDocs对象数组里存放查询信息

  7、关闭IndexSearch

==============================================================================

如何快速进行检索,其实我们要对其进行建立索引,也就是目录,这样我们方便查找.....但是如何建立,这就是涉及到分词,这大家可以看一些论文,比较理论化,但是对我们项目里面使用影响不是很大。  

 

  

 

posted on 2014-09-17 22:52  gstsyyb  阅读(372)  评论(0编辑  收藏  举报