NUTCH研究 - 文章分类 - kwklover

Nutch爬虫实验运行及抓取数据分析（二）

摘要：Nutch爬虫实验运行及抓取数据分析（二）续接《Nutch爬虫实验运行及抓取数据分析（一）》：在分析了WebDB之后，下面我们继续分析Nutch爬虫在对实验网络抓取之后其它的结果文件内容。 Segments Crawler在抓取中共生成了三个segment，分别存放于segments文件夹下的以时间戳为文件夹名的三个子文件夹下面。每个segment代表Crawler... 阅读全文

posted @ 2006-07-08 15:00 kwklover 阅读(8200) 评论(0) 推荐(0)

Nutch爬虫实验运行及抓取数据分析（一）

摘要：Nutch爬虫实验运行及抓取数据分析（一）为了更深入地对Nutch爬虫进行了解，我们需要运行一个实际的抓取过程并对这个过程中的细节进行记录，对抓取生成的结果文件进行内容分析。首先你需要下载Nutch程序并搭建起可以令其运行的平台，这在网上都有详细的说明资料，我就不赘述了。我们需要做的第一步就是建立起一个实验用的Web站点，这个站点只包含了四个网页。图1描述了这四个网页之间的链接关系，并且C网... 阅读全文

posted @ 2006-07-08 14:59 kwklover 阅读(23586) 评论(0) 推荐(0)

Nutch爬虫工作流程及文件格式详细分析

摘要：Nutch爬虫工作流程及文件格式详细分析 Nutch主要分为两个部分：爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之间的耦合度很低。 Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以... 阅读全文

posted @ 2006-07-08 14:58 kwklover 阅读(3763) 评论(1) 推荐(0)

NUTCH研究系列4——剖析NUTCH爬虫3

摘要：NUTCH研究系列4——剖析NUTCH爬虫3 下面我们来研究一下fetch操作，在爬虫中，抓取是最主要的操作。 Fetch命令：net.nutch.fetcher.Fetcher 此命令的作用就是抓取网页，但是需要注意的是，抓取的单位不是单个的网页，而是同属于一个segment的网页集合。命令格式： Fetcher [-logLevel level] [-showThreadID... 阅读全文

posted @ 2006-07-08 14:57 kwklover 阅读(2522) 评论(0) 推荐(0)

NUTCH研究系列3——剖析NUTCH爬虫2

摘要：NUTCH研究系列3——剖析NUTCH爬虫2 继续剖析NUTCH爬虫。接下来的几个命令和命令调用的类，主要是为最核心的fetch工作做准备的，我们首先来看看以下这些操作，然后集中精力再看fetch类。 Admin -creat 命令：net.nutch.tools.WebDBAdminTool类 Admin命令的作用主要是对网页库进行管理操作。其命令格式如下： java n... 阅读全文

posted @ 2006-07-08 14:56 kwklover 阅读(2315) 评论(0) 推荐(0)

NUTCH研究系列2——剖析NUTCH爬虫

摘要：NUTCH研究系列2——剖析NUTCH爬虫牛顿先生告诉我们，如果想看的远，那就得站到巨人的肩膀上。所以，在自己动手之前，前辈们的研究成果不能不先看看。在网上搜索并整理了一下，发现关于NUTCH的中文学习资料或者说是心得真的不多，其中大部分还都是关注于怎么安装配置上面，稍微深入一点的东西就只能看英文的了。看英文对于大家来说当然难度也不是很大，但是比起中文来终究是有点费时费力。所以我在学习NUT... 阅读全文

posted @ 2006-07-08 14:47 kwklover 阅读(3688) 评论(0) 推荐(0)

Nutch研究系列1——安装

摘要：Nutch研究系列1——安装最近着手开始研究Nutch，以前在Linux上曾经对Nutch鼓捣过一段时间，但当时纯粹是出于一种好奇和玩乐的心态，并没有对其进行过深入的探讨和研究。随着自己的论文方向锁死在搜索引擎爬虫，在此之前又一直关注于搜索算法理论和数学模型等的学习上，现在是到了静下心来在实现技术上花点功夫的时候了。其实一开始，我的目标曾经是Larbin（详细介绍请Google），... 阅读全文

posted @ 2006-07-08 14:46 kwklover 阅读(2406) 评论(0) 推荐(0)

文章分类 - NUTCH研究

公告