代码改变世界

【Lucene4.8教程之四】分析

2014-06-22 10:51 by jediael, 161 阅读, 0 推荐, 收藏, 编辑
摘要:1、基础内容(1)相关概念分析(Analysis),在Lucene中指的是将域(Field)文本转换成最基本的索引表示单元--项(Term)的过程。在搜索过程中,这些项用于决定什么样的文档能够匹配查词条件。分析器对分析操作进行了封装,它通过执行若干操作,将文本转化成语汇单元,这个处理过程也称为语汇单... 阅读全文

【Lucene4.8教程之六】QueryParser与Query子类:如何生成Query对象

2014-06-22 09:35 by jediael, 181 阅读, 0 推荐, 收藏, 编辑
摘要:一、概述1、对于一个搜索而言,其核心语句为:searcher.search(query, 10);此时,其最重要的参数为一个Qeury对象。构造一个Query对象有2种方法:(1)使用Query的子类创建一个对象。(2)使用QueryParser.parse()创建一个对象。常用的用于实例化一个对象... 阅读全文

【Lucene4.8教程之三】搜索

2014-06-21 09:53 by jediael, 135 阅读, 0 推荐, 收藏, 编辑
摘要:1、关键类Lucene的搜索过程中涉及的主要类有以下几个:(1)IndexSearcher:执行search()方法的类(2)IndexReader:对索引文件进行读操作,并为IndexSearcher提供搜索接口(3)Query及其子类:查询对象,search()方法的重要参数(4)QueryPa... 阅读全文

Java路径问题最终解决方案—可定位所有资源的相对路径寻址

2014-06-20 15:20 by jediael, 545 阅读, 0 推荐, 收藏, 编辑
摘要:1、在Java项目中,应该通过绝对路径访问文件,以下为访问的常用方法:第一种方法:类名.class.getResource("/").getPath()+文件名第二种方法:Thread.currentThread().getContextClassLoader().getResource("").g... 阅读全文

java.util.logging.Logger基础教程

2014-06-18 11:02 by jediael, 161 阅读, 0 推荐, 收藏, 编辑
摘要:从JDK1.4开始即引入与日志相关的类java.util.logging.Logger,但由于Log4J的存在,一直未能广泛使用。综合网上各类说法,大致认为: (1)Logger:适用于小型系统,当日志量过大时性能有待提升。好处在于JDK集成了此类,无需引入新包。且性能也在逐步改善当中,我认为... 阅读全文

【Lucene4.8教程之二】索引

2014-06-16 11:30 by jediael, 145 阅读, 0 推荐, 收藏, 编辑
摘要:一、基础内容0、官方文档说明(1)org.apache.lucene.index provides two primary classes: IndexWriter, which creates and adds documents to indices; and IndexReader, whic... 阅读全文

【Lucene4.8教程之一】使用Lucene4.8进行索引及搜索的基本操作

2014-06-11 10:47 by jediael, 120 阅读, 0 推荐, 收藏, 编辑
摘要:在Lucene对文本进行处理的过程中,可以大致分为三大部分:1、索引文件:提取文档内容并分析,生成索引2、搜索内容:搜索索引内容,根据搜索关键字得出搜索结果3、分析内容:对搜索词汇进行分析,生成Quey对象。注:事实上,除了最基本的完全匹配搜索以外,其它都需要在搜索前进行分析。如不加分析步骤,则搜索... 阅读全文

重要学习参考资料

2014-06-09 21:21 by jediael, 197 阅读, 0 推荐, 收藏, 编辑
摘要:搜索及数据处理LuceneSSolrSHadoop/SparkSNutchATikaBHeritrixCJAVAJAVA SEA算法基础算法、搜索相关实用算法AJava WebJSP/Servlet、SSH、WS、MavenBLinuxShell、管理B云计算云计算B计算机基础软件工程、设计模式、操... 阅读全文

【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析

2014-06-04 20:10 by jediael, 151 阅读, 0 推荐, 收藏, 编辑
摘要:在创建一个job后,就要开始job的运行,运行的全流程如下:1、在界面上启动job2、index.jsp查看上述页面对应的源代码Start3、action.jsp String sAction = request.getParameter("action"); if(sAction !=... 阅读全文

【Heritrix基础教程之3】Heritrix的基本架构

2014-06-01 16:56 by jediael, 133 阅读, 0 推荐, 收藏, 编辑
摘要:Heritrix可分为四大模块:1、控制器CrawlController2、待处理的uri列表 Frontier3、线程池 ToeThread4、各个步骤的处理器(1)Pre-fetch processing chain:主要处理DNS-lookup, robots.txt,认证,抓取范围检查等。(... 阅读全文
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 24 下一页