根据需要,有时可能需要限定到一个(些)网站采集网页,如果网站数不是很多,会发现下载的速度慢到无法忍受。原因就是larbin的策略都是从全网爬行的角度考虑的,但可以从以下几个方面修改来提高速度: 1、将larbin.conf里面的waitDuration设置为1,这里不再考虑polite^_^, 设置为1大多数网站其实还能忍受;
2、将types.h里面的maxUrlsBySite修改为254;
3、将main.cc里面的代码做如下修改:
// see if we should read again urls in fifowait
if ((global::now % 30) == 0) { global::readPriorityWait = global::URLsPriorityWait->getLength(); global::readWait = global::URLsDiskWait->getLength(); } if ((global::now % 30) == 15) { global::readPriorityWait = 0; global::readWait = 0; } 相信做了上述修改后你就会发现效果比原来的速度提高很多。
问题一 # do you want to follow external links
我想问一下,larbin是不是最多只能装入6400万个URL呀?可不可以加到几亿呀?
|