会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Norwegian Wood
博客园
首页
新随笔
联系
订阅
管理
2017年2月6日
常用爬虫框架及优劣
摘要: 分布式爬虫:Apache的Nutch,Nutch依赖hadoop运行,hadoop本身会消耗很多的时间。如果集群机器数量较少,爬取速度反而不如单机爬虫快。 JAVA单机爬虫:Crawler4j、WebMagic、WebCollector 非JAVA单机爬虫:scrapy python内置的urlli
阅读全文
posted @ 2017-02-06 10:25 Norwegian-Wood
阅读(2606)
评论(0)
推荐(0)
编辑
公告