摘要: 一、快速入门1、Tika是一个用于文本解释的框架,其本身并不提供任何的库用于解释文本,而是调用各种各样的库,如POI,PDFBox等。使用Tika,可以提取文件中的作者、标题、创建时间、正文等内容,相比于java.io自带的一些功能(如FileInputStream,FIleReader,Scann... 阅读全文
posted @ 2014-06-22 21:57 lujinhong 阅读(451) 评论(0) 推荐(0) 编辑
摘要: 1、基础内容(1)相关概念分析(Analysis),在Lucene中指的是将域(Field)文本转换成最基本的索引表示单元--项(Term)的过程。在搜索过程中,这些项用于决定什么样的文档能够匹配查词条件。分析器对分析操作进行了封装,它通过执行若干操作,将文本转化成语汇单元,这个处理过程也称为语汇单... 阅读全文
posted @ 2014-06-22 10:51 lujinhong 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 一、概述1、对于一个搜索而言,其核心语句为:searcher.search(query, 10);此时,其最重要的参数为一个Qeury对象。构造一个Query对象有2种方法:(1)使用Query的子类创建一个对象。(2)使用QueryParser.parse()创建一个对象。常用的用于实例化一个对象... 阅读全文
posted @ 2014-06-22 09:35 lujinhong 阅读(206) 评论(0) 推荐(0) 编辑