摘要: 一、快速入门1、Tika是一个用于文本解释的框架,其本身并不提供任何的库用于解释文本,而是调用各种各样的库,如POI,PDFBox等。使用Tika,可以提取文件中的作者、标题、创建时间、正文等内容,相比于java.io自带的一些功能(如FileInputStream,FIleReader,Scanner等):(1)若文档为纯文本,如txt,html,java文件等,则二者对于文件内容的提取基本... 阅读全文
posted @ 2014-06-22 21:57 lujinhong2 阅读(539) 评论(0) 推荐(0) 编辑
摘要: 1、基础内容(1)相关概念分析(Analysis),在Lucene中指的是将域(Field)文本转换成最基本的索引表示单元--项(Term)的过程。在搜索过程中,这些项用于决定什么样的文档能够匹配查词条件。分析器对分析操作进行了封装,它通过执行若干操作,将文本转化成语汇单元,这个处理过程也称为语汇单... 阅读全文
posted @ 2014-06-22 10:51 lujinhong2 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 一、概述1、对于一个搜索而言,其核心语句为:searcher.search(query, 10);此时,其最重要的参数为一个Qeury对象。构造一个Query对象有2种方法:(1)使用Query的子类创建一个对象。(2)使用QueryParser.parse()创建一个对象。常用的用于实例化一个对象... 阅读全文
posted @ 2014-06-22 09:35 lujinhong2 阅读(166) 评论(0) 推荐(0) 编辑