文章分类 -  NUTCH研究

关于NUTCH的资料,大多转载的
摘要:Nutch爬虫实验运行及抓取数据分析(二) 续接《Nutch爬虫实验运行及抓取数据分析(一)》: 在分析了WebDB之后,下面我们继续分析Nutch爬虫在对实验网络抓取之后其它的结果文件内容。 Segments Crawler在抓取中共生成了三个segment,分别存放于segments文件夹下的以时间戳为文件夹名的三个子文件夹下面。每个segment代表Crawler... 阅读全文
posted @ 2006-07-08 15:00 kwklover 阅读(8151) 评论(0) 推荐(0) 编辑
摘要:Nutch爬虫实验运行及抓取数据分析(一) 为了更深入地对Nutch爬虫进行了解,我们需要运行一个实际的抓取过程并对这个过程中的细节进行记录,对抓取生成的结果文件进行内容分析。首先你需要下载Nutch程序并搭建起可以令其运行的平台,这在网上都有详细的说明资料,我就不赘述了。我们需要做的第一步就是建立起一个实验用的Web站点,这个站点只包含了四个网页。图1描述了这四个网页之间的链接关系,并且C网... 阅读全文
posted @ 2006-07-08 14:59 kwklover 阅读(23550) 评论(0) 推荐(0) 编辑
摘要:Nutch爬虫工作流程及文件格式详细分析 Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。 Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以... 阅读全文
posted @ 2006-07-08 14:58 kwklover 阅读(3733) 评论(1) 推荐(0) 编辑
摘要:NUTCH研究系列4——剖析NUTCH爬虫3 下面我们来研究一下fetch操作,在爬虫中,抓取是最主要的操作。 Fetch命令:net.nutch.fetcher.Fetcher 此命令的作用就是抓取网页,但是需要注意的是,抓取的单位不是单个的网页,而是同属于一个segment的网页集合。命令格式: Fetcher [-logLevel level] [-showThreadID... 阅读全文
posted @ 2006-07-08 14:57 kwklover 阅读(2502) 评论(0) 推荐(0) 编辑
摘要:NUTCH研究系列3——剖析NUTCH爬虫2 继续剖析NUTCH爬虫。接下来的几个命令和命令调用的类,主要是为最核心的fetch工作做准备的,我们首先来看看以下这些操作,然后集中精力再看fetch类。 Admin -creat 命令:net.nutch.tools.WebDBAdminTool类 Admin命令的作用主要是对网页库进行管理操作。其命令格式如下: java n... 阅读全文
posted @ 2006-07-08 14:56 kwklover 阅读(2299) 评论(0) 推荐(0) 编辑
摘要:NUTCH研究系列2——剖析NUTCH爬虫 牛顿先生告诉我们,如果想看的远,那就得站到巨人的肩膀上。所以,在自己动手之前,前辈们的研究成果不能不先看看。在网上搜索并整理了一下,发现关于NUTCH的中文学习资料或者说是心得真的不多,其中大部分还都是关注于怎么安装配置上面,稍微深入一点的东西就只能看英文的了。看英文对于大家来说当然难度也不是很大,但是比起中文来终究是有点费时费力。所以我在学习NUT... 阅读全文
posted @ 2006-07-08 14:47 kwklover 阅读(3658) 评论(0) 推荐(0) 编辑
摘要:Nutch研究系列1——安装 最近着手开始研究Nutch,以前在Linux上曾经对Nutch鼓捣过一段时间,但当时纯粹是出于一种好奇和玩乐的心态,并没有对其进行过深入的探讨和研究。随着自己的论文方向锁死在搜索引擎爬虫,在此之前又一直关注于搜索算法理论和数学模型等的学习上,现在是到了静下心来在实现技术上花点功夫的时候了。 其实一开始,我的目标曾经是Larbin(详细介绍请Google),... 阅读全文
posted @ 2006-07-08 14:46 kwklover 阅读(2389) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示