摘要: 分布式爬虫:Apache的Nutch,Nutch依赖hadoop运行,hadoop本身会消耗很多的时间。如果集群机器数量较少,爬取速度反而不如单机爬虫快。 JAVA单机爬虫:Crawler4j、WebMagic、WebCollector 非JAVA单机爬虫:scrapy python内置的urlli 阅读全文
posted @ 2017-02-06 10:25 Norwegian-Wood 阅读(2606) 评论(0) 推荐(0) 编辑