文章分类 -  scrapy 框架

摘要:该文章以爬取手机斗鱼APP为例,我们希望爬取关键字”颜值“里面的主播大图,点击获取:前期手机配置与fiddler配置。 配置好fiddler和手机之后,打开斗鱼APP,用fiddler抓包,这里的数据返回的都是JSON数据,所以我们可以直接用json提取。 首先找到链接,这里作者抓到的链接使用是有问 阅读全文
posted @ 2018-05-24 21:28 巴蜀秀才 阅读(1374) 评论(1) 推荐(0) 编辑
摘要:创建项目:scrapy startproject QC 创建爬虫文件:scrapy genspider qc 51job.com 明确爬虫目标: 编写爬虫文件: 阅读全文
posted @ 2018-05-22 12:40 巴蜀秀才 阅读(180) 评论(0) 推荐(0) 编辑
摘要:基本的配置如下: BOT_NAME 默认: 'scrapybot' 当您使用 startproject 命令创建项目时其也被自动赋值。 CONCURRENT_ITEMS 默认: 100 Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值 阅读全文
posted @ 2018-05-18 11:17 巴蜀秀才 阅读(194) 评论(0) 推荐(0) 编辑
摘要:下载中间件常用的函数: process_request(self, request, spider) 参数: request:一个Request对象,需要处理的请求对象。 spider:此Request 所对应的spider。 1、当每个request请求通过下载中间件的时候,此方法被调用。 2、p 阅读全文
posted @ 2018-05-18 11:00 巴蜀秀才 阅读(273) 评论(0) 推荐(0) 编辑
摘要:在爬数据的过程中,也许你会遇到动态页面,由于直接请求拿不到目标数据,所以我们需要解析网站的JS 代码或者使用selenium获取资源。这里我们将使用selenium加载数据,并返回给引擎进行调度分析。 第一步:明确爬虫目标,编写items文件 第二步:创建爬虫文件,并书写爬虫代码 上面的代码是爬取某 阅读全文
posted @ 2018-05-18 10:25 巴蜀秀才 阅读(202) 评论(0) 推荐(0) 编辑
摘要:前面我们实现了douban的操作,下面是一个类似的案例,人人网数据爬取: 爬虫文件: 这里的代码好像可以取到数据,实际上很难,这里人人网会验证验证码的对错,由于此网站对于触发验证码识别 是一个大概率事件,所以写验证码识别是非常必要的。具体方法这里不介绍了,可以根据网站自行处理,作者一般是 使用打码平 阅读全文
posted @ 2018-05-16 15:25 巴蜀秀才 阅读(79) 评论(0) 推荐(0) 编辑
摘要:前面的文章都是直接yield一个get请求,如果我们需要传入参数以post方法请求怎么办呢?下面我们以豆瓣 为例,先登录豆瓣网,再爬个人主页下推送的文章用户名,如果有跟多的需求可以再分析并书写相应的函数。 爬虫文件: 通过重写start_requests函数,我们可以将第一次请求设置为POST请求。 阅读全文
posted @ 2018-05-16 15:05 巴蜀秀才 阅读(352) 评论(0) 推荐(0) 编辑
摘要:为了说明crawlspider 与 spider 的不同,我们以初识scrapy框架(二)的案例来跟进代码的书写。 创建爬虫文件:scrapy genspider -t crawl 'crawlspider_name' 'url' . 编写爬虫文件: 执行爬虫程序:scrapy crawl craw 阅读全文
posted @ 2018-05-14 17:03 巴蜀秀才 阅读(137) 评论(0) 推荐(0) 编辑
摘要:在初识scrapy框架(一)里,对scrapy爬取数据有了一定的了解,下面将介绍爬某招聘网站 信息的案例,并以此说明代码要注意的坑,以及书写代码要注意的一些规范。 创建爬虫项目:scrapy startproject Tencent_recruit 创建爬虫文件:scrapy genspider r 阅读全文
posted @ 2018-05-14 15:35 巴蜀秀才 阅读(144) 评论(0) 推荐(0) 编辑
摘要:创建一个scrapy项目: scrapy startproject '项目名' 比如新建一个名为dan_scrapy的项目 在项目里会自动生成一些文件: 在项目dan_scrapy下有一个配置文件:scrapy.cfg ;还有一个文件夹:dan_scrapy。子文件夹下面有4个py文件和一个 spi 阅读全文
posted @ 2018-05-08 22:48 巴蜀秀才 阅读(133) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示