1.接触过几种爬虫模块:
urllib, requests
2.robots协议是什么:
requests模块没有使用硬性的语法对该协议进行生效。
scrapy硬性语法对该协议进行了生效
3.如何处理验证码:
云打码平台 打码兔
4.掌握几种数据解析的方式:
正则、xpath、 bs4
5.如何爬取动态加载的页面数据:
(1)selenium
(2)ajax,抓包工具抓取异步发起的请求(url)
6.接触过哪些反爬机制?如何处理?
robots协议 UA 封IP
验证码 ,动态数据爬取, 数据加密, token
7.在scrapy中接触过几种爬虫的类:
Spider, CrawlSpider, RedisCrawlSpider, RedisSpider
8.如何实现分布式流程:都依托scrapy-redis库
RedisCrawlSpider, RedisSpider
posted @
2019-01-02 15:47
Corey0606
阅读(
221)
评论()
编辑
收藏
举报