爬虫--总结

　　urllib,requests

　　requests模块没有使用硬性的语法对该协议进行生效

　　scrapy硬性的语法对该协议进行了生效

　　云打码平台打码兔

　　正则，xpath，bs4

　　1.selenium

　　2.ajax，抓包工具，抓取异步发情的请求(url)

　　robots协议=false、UA、封ip、验证码、动态数据爬取、数据加密、token---随机字符串

提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？

方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。


方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。

　3.4 CrawlSpider整体爬取流程：

　　　　a)爬虫文件首先根据起始url，获取该url的网页内容

　　　　b)链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取

　　　　c)规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析

　　　　d)将解析数据封装到item中，然后提交给管道进行持久化存储

基于spider创建爬虫文件：

基于crwalSpider类的爬虫文件

　　Spider(父类)，CrwalSpider，RedisCrawlSpider , RedisSpider

　　再上面两种基础上建立然后进行修改

　　RedisCrawlSpider , RedisSpider

-------------------------------------------------------------------------------------------------------------------------

posted on 2018-12-11 16:24 foremost 阅读(197) 评论(0) 编辑收藏举报