摘要:
一、Nutch日志实现方式1、Nutch使用slf4j作为日志接口,使用log4j作为具体实现。关于二者的基础,请参考http://blog.csdn.net/jediael_lu/article/details/43854571http://blog.csdn.net/jediael_lu/art... 阅读全文
随笔分类 - 1_Nutch
log4j配置文件及nutch中的日志配置
2015-02-17 10:58 by jediael, 173 阅读, 收藏, 编辑
摘要:
使用slf4j作为日志系统时,由于slf4j只是一个接口,它需要一个具体实现来执行。具体参考http://blog.csdn.net/jediael_lu/article/details/43854571由于slf4j统一了API接口,因此,若log4j实现来日志输出,则只需要设置配置文件的内容即可... 阅读全文
读取Webpage表中的内容
2015-02-10 14:59 by jediael, 197 阅读, 收藏, 编辑
摘要:
nutch将从网页中抓取到的信息放入hbase数据库中,默认情况下表名为$crawlId_webpage,但表中的内容以16进制进行表示,直接scan或者通过Java API进行读取均只能读取到16进制信息。 因此nutch提供了readdb选项进行数据获取,将表中的内容读取到一个文本中。具体用法... 阅读全文
在Eclipse中运行Nutch2.3
2015-01-28 16:41 by jediael, 179 阅读, 收藏, 编辑
摘要:
参考http://wiki.apache.org/nutch/RunNutchInEclipse一、环境准备1、下载nutch2.3源代码wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz或者下载正在开... 阅读全文
Nutch关于robot.txt的处理
2015-01-28 11:20 by jediael, 166 阅读, 收藏, 编辑
摘要:
在nutch中,默认情况下尊重robot.txt的配置,同时不提供配置项以忽略robot.txt。以下是其中一个解释。即作为apache的一个开源项目,必须遵循某些规定,同时由于开放了源代码,可以简单的通过修改源代码来忽略robot.txt的限制。From the point of view of ... 阅读全文
【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】
2015-01-24 17:24 by jediael, 232 阅读, 收藏, 编辑
摘要:
1、下载相关软件,并解压版本号如下:(1)apache-nutch-2.3(2) hadoop-1.2.1(3)hbase-0.92.1(4)solr-4.9.0并解压至/opt/jediael。若要下载最新的开发版本nutch,可以进行以下操作 svn co https://svn.apache.... 阅读全文
Nutch+Hadoop集群搭建
2015-01-18 10:55 by jediael, 175 阅读, 收藏, 编辑
摘要:
转载自:http://www.open-open.com/lib/view/open1328670771405.html1、Apache Nutch Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。1.1、Nutch的组件... 阅读全文
【Nutch基础教程之七】Nutch的2种运行模式:local及deploy
2014-12-21 09:40 by jediael, 258 阅读, 收藏, 编辑
摘要:
在对nutch源代码运行ant runtime后,会创建一个runtime的目录,在runtime目录下有deploy和local 2个目录。[jediael@jediael runtime]$ lsdeploy local这2个目录分别代表nutch的2种运行方式:部署模式及本地模式。1、nutc... 阅读全文
【Nutch2.2.1源代码分析之5】索引的基本流程
2014-08-25 14:18 by jediael, 170 阅读, 收藏, 编辑
摘要:
一、各个主要类之间的关系SolrIndexerJob extends IndexerJob1、IndexerJob:主要完成2、SolrIndexerJob:主要完成3、IndexUtil:主要只有一个方法public NutchDocument index(String key, WebPage ... 阅读全文
【Nutch2.2.1源代码分析之4】Nutch加载配置文件的方法
2014-08-22 21:57 by jediael, 159 阅读, 收藏, 编辑
摘要:
小结:(1)在nutch中,一般通过ToolRunner来运行hadoop job,此方法可以方便的通过ToolRunner.run(Configuration conf,Tool tool,String[] args)来加载配置文件。(2)conf参数会通过NutchConfiguration.c... 阅读全文
【Nutch2.2.1基础教程之3】Nutch2.2.1配置文件
2014-08-18 16:33 by jediael, 257 阅读, 收藏, 编辑
摘要:
nutch-site.xml在nutch2.2.1中,有两份配置文件:nutch-default.xml与nutch-site.xml。其中前者是nutch自带的默认属性,一般情况下不要修改。如果需要修改默认属性,可以在nutch-site.xml中增加一个同名的属性,并修改其值。nutch-sit... 阅读全文
【Nutch2.2.1基础教程之6】Nutch2.2.1抓取流程
2014-08-15 21:39 by jediael, 214 阅读, 收藏, 编辑
摘要:
一、抓取流程概述1、nutch抓取流程当使用crawl命令进行抓取任务时,其基本流程步骤如下:(1)InjectorJob开始第一个迭代(2)GeneratorJob(3)FetcherJob(4)ParserJob(5)DbUpdaterJob(6)SolrIndexerJob开始第二个迭代(2)... 阅读全文
【Nutch2.2.1基础教程之1】nutch相关异常
2014-08-08 21:46 by jediael, 195 阅读, 收藏, 编辑
摘要:
1、在任务一开始运行,注入Url时即出现以下错误。InjectorJob: Injecting urlDir: urlsInjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.... 阅读全文
【Nutch2.2.1基础教程之2.2】集成Nutch/Hbase/Solr构建搜索引擎之二:内容分析
2014-07-13 14:18 by jediael, 242 阅读, 收藏, 编辑
摘要:
请先参见“集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行”,搭建测试环境http://blog.csdn.net/jediael_lu/article/details/37329731一、被索引的域 Schema.xml1、文档基本内容在使用solr对Nutch抓取到的网页进行索引... 阅读全文
【Nutch2.2.1基础教程之2.1】集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行【单机环境】
2014-07-06 14:46 by jediael, 277 阅读, 收藏, 编辑
摘要:
1、下载相关软件,并解压版本号如下:(1)apache-nutch-2.2.1(2) hbase-0.90.4(3)solr-4.9.0并解压至/usr/search2、Nutch的配置(1)vi /usr/search/apache-nutch-2.2.1/conf/nutch-site.xmls... 阅读全文
【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析
2014-06-04 20:10 by jediael, 151 阅读, 收藏, 编辑
摘要:
在创建一个job后,就要开始job的运行,运行的全流程如下:1、在界面上启动job2、index.jsp查看上述页面对应的源代码Start3、action.jsp String sAction = request.getParameter("action"); if(sAction !=... 阅读全文
【Heritrix基础教程之3】Heritrix的基本架构
2014-06-01 16:56 by jediael, 135 阅读, 收藏, 编辑
摘要:
Heritrix可分为四大模块:1、控制器CrawlController2、待处理的uri列表 Frontier3、线程池 ToeThread4、各个步骤的处理器(1)Pre-fetch processing chain:主要处理DNS-lookup, robots.txt,认证,抓取范围检查等。(... 阅读全文
【Heritrix基础教程之2】Heritrix基本内容介绍
2014-06-01 13:02 by jediael, 133 阅读, 收藏, 编辑
摘要:
1、版本说明(1)最新版本:3.3.0(2)最新release版本:3.2.0(3)重要历史版本:1.14.43.1.0及之前的版本:http://sourceforge.net/projects/archive-crawler/files/ 3.2.0及之后的版本:http://archive.o... 阅读全文
【Heritrix基础教程之1】在Eclipse中配置Heritrix
2014-06-01 00:00 by jediael, 160 阅读, 收藏, 编辑
摘要:
一、新建项目并将Heritrix源码导入1、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;2、在Eclipse下新建Java项目,取名Heritrix.1.14.4;3、复制SRC包下面src/java文... 阅读全文