2018 年 1月 22 日随笔档案 - NeitherCandidate

摘要：爬虫的基本原理爬虫——请求库之requests 爬虫——请求库之selenium模块爬取拉勾网示例破解极验滑动验证码解析库之——beautifulsoup 存储库之——MongoDB 爬虫关于高性能方面 Scrapy框架阅读全文

posted @ 2018-01-22 20:29 NeitherCandidate 阅读(233) 评论(0) 推荐(0) 编辑

摘要：阅读目录一背景知识二同步、异步、回调机制三高性能一背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等阅读全文

posted @ 2018-01-22 15:28 NeitherCandidate 阅读(340) 评论(0) 推荐(0) 编辑

Neither Candidate