Larbin的使用--配置
一、配置larbin.conf文件
Larbin.conf是larbin的基本配置文件,里面有很多的配置选项,以下我只列举我经常用到的一些。
httpPort |
8081 |
利用web查看时的端口号 |
pagesConnexions |
100 |
并行链接的最大数目 |
pagesConnexions |
100 |
并行链接的最大数目 |
depthInSite |
5 |
爬虫的深度 |
waitDuration |
30 |
连续两次访问统一个服务器的间隔(以秒为单位) |
startUrl |
种子页面 |
|
limitToDomain |
tianya.cn end |
域名的限制,可以加入多个,以end结尾 |
二、配置option.h
//#define DEFAULT_OUTPUT do nothing... #define SIMPLE_SAVE // save in files named save/dxxxxxx/fyyyyyy //#define MIRROR_SAVE // save in files (respect sites hierarchy) //#define STATS_OUTPUT // do some stats on pages
option.h我用到的主要配置就是output module 。Larbin有四种output module:default、simple、mirror和stats。
default:不会保存任何的东西。
simple: 简单的把html文件按域名为文件夹分开,文件以fxxxx命名。xxxx为编号,还会有一个index文件,建议编号和url的对应。
mirror: 把html文件按照它在网站上的结构保存。如http://www.cnblogs.com/lovesaber/archive/2012/02/28/2371618.html则会保存在文件夹cnblogd.com/lavesaber/archive/2012/02/28目录下,且文件名为2371618.html。
配置好上面的一些参数后,就可以输入./larbin运行larbin了。运行后可以通过web进行查看。在浏览器中输入http://localhost:8081/可以查看现在的爬虫状态,如下图。