Larbin的使用--配置

一、配置larbin.conf文件

Larbin.conf是larbin的基本配置文件,里面有很多的配置选项,以下我只列举我经常用到的一些。

httpPort

8081

利用web查看时的端口号

pagesConnexions 

100 

并行链接的最大数目

pagesConnexions

100

并行链接的最大数目

depthInSite

 5

爬虫的深度

waitDuration

30

连续两次访问统一个服务器的间(以秒为单位)

startUrl

http://www.tianya.cn

种子页面

limitToDomain

 tianya.cn end

域名的限制,可以加入多个,以end结尾

二、配置option.h


//#define DEFAULT_OUTPUT do nothing...
#define SIMPLE_SAVE // save in files named save/dxxxxxx/fyyyyyy
//#define MIRROR_SAVE // save in files (respect sites hierarchy)
//#define STATS_OUTPUT // do some stats on pages

option.h我用到的主要配置就是output module 。Larbin有四种output module:default、simple、mirror和stats。

default:不会保存任何的东西。

simple: 简单的把html文件按域名为文件夹分开,文件以fxxxx命名。xxxx为编号,还会有一个index文件,建议编号和url的对应。

mirror: 把html文件按照它在网站上的结构保存。如http://www.cnblogs.com/lovesaber/archive/2012/02/28/2371618.html则会保存在文件夹cnblogd.com/lavesaber/archive/2012/02/28目录下,且文件名为2371618.html。

 

配置好上面的一些参数后,就可以输入./larbin运行larbin了。运行后可以通过web进行查看。在浏览器中输入http://localhost:8081/可以查看现在的爬虫状态,如下图。

  

 

 

 

 

 

 

 

posted @ 2012-07-11 10:35  steel_heart  阅读(429)  评论(6编辑  收藏  举报