爬虫部分学习总结

1.接触过几种爬虫模块：

　　urllib, requests

2.robots协议是什么：

　　 requests模块没有使用硬性的语法对该协议进行生效。

　　 scrapy硬性语法对该协议进行了生效

3.如何处理验证码：

　　　　云打码平台打码兔

4.掌握几种数据解析的方式：

　　　　正则、xpath、 bs4

5.如何爬取动态加载的页面数据：

　　（1）selenium

　　（2）ajax,抓包工具抓取异步发起的请求（url)

6.接触过哪些反爬机制？如何处理？

　　robots协议 UA 封IP

　　验证码，动态数据爬取，数据加密, token

7.在scrapy中接触过几种爬虫的类：

　　Spider, CrawlSpider, RedisCrawlSpider, RedisSpider

8.如何实现分布式流程：都依托scrapy-redis库

　　RedisCrawlSpider, RedisSpider

posted @ 2019-01-02 15:47 Corey0606 阅读(221) 评论(0) 编辑收藏举报

刷新页面返回顶部

COREY

爬虫部分学习总结

1.接触过几种爬虫模块：

urllib, requests

2.robots协议是什么：

requests模块没有使用硬性的语法对该协议进行生效。

scrapy硬性语法对该协议进行了生效

3.如何处理验证码：

云打码平台打码兔

4.掌握几种数据解析的方式：

正则、xpath、 bs4

5.如何爬取动态加载的页面数据：

（1）selenium

（2）ajax,抓包工具抓取异步发起的请求（url)

6.接触过哪些反爬机制？如何处理？

robots协议 UA 封IP

验证码，动态数据爬取，数据加密, token

7.在scrapy中接触过几种爬虫的类：

Spider, CrawlSpider, RedisCrawlSpider, RedisSpider

8.如何实现分布式流程：都依托scrapy-redis库

RedisCrawlSpider, RedisSpider

公告

COREY

爬虫部分学习总结

1.接触过几种爬虫模块：

urllib, requests

2.robots协议是什么：

requests模块没有使用硬性的语法对该协议进行生效。

scrapy硬性语法对该协议进行了生效

3.如何处理验证码：

云打码平台 打码兔

4.掌握几种数据解析的方式：

正则、xpath、 bs4

5.如何爬取动态加载的页面数据：

（1）selenium

（2）ajax,抓包工具抓取异步发起的请求（url)

6.接触过哪些反爬机制？如何处理？

robots协议 UA 封IP

验证码 ，动态数据爬取， 数据加密, token

7.在scrapy中接触过几种爬虫的类：

Spider, CrawlSpider, RedisCrawlSpider, RedisSpider

8.如何实现分布式流程：都依托scrapy-redis库

RedisCrawlSpider, RedisSpider

公告

　　urllib, requests

　　 requests模块没有使用硬性的语法对该协议进行生效。

　　 scrapy硬性语法对该协议进行了生效

　　　　云打码平台打码兔

　　　　正则、xpath、 bs4

　　（1）selenium

　　（2）ajax,抓包工具抓取异步发起的请求（url)

　　robots协议 UA 封IP

　　验证码，动态数据爬取，数据加密, token

　　Spider, CrawlSpider, RedisCrawlSpider, RedisSpider

　　RedisCrawlSpider, RedisSpider