网络爬虫小结

Python中可以用来爬取网络数据的库有很多，常见的有：urllib、urllib2、urllib3、requests、scrapy、selenium等。

基本上可以分为3类：

第一类：urllib、urllib2、urllib3、requests；

第二类：scrapy；

第三类：selenium；

第一类是python自带的库，其中requests上手简单，功能强大,缺点就是缺少配套工程，自己需要自己写不少的代码处理语料(哈哈，urllib、urllib2、urllib3不建议画太多精力在上面)；

第二类和第三类是封装好的框架，功能强大，配套的工程多，但上手相对复杂；

Scrapy和requests比较难以处理动态网页，selenium比较适合处理动态网页；

相反的，Scrapy适合大规模的数据爬取，而selenium只适合小规模的数据爬取。

posted @ 2018-10-03 18:05 仔仔ji 阅读(245) 评论(0) 编辑收藏举报

刷新页面返回顶部