2019 年 1月 14 日随笔档案 - 浮云遮月

2019年1月14日

摘要： scrapy 五大核心组件的工作流程当执行爬虫文件时，5大核心组件就在工作了 spiders 引擎（Scrapy Engine）管道（item Pipeline）调度器（Scheduler）下载器（Downloader）首先执行爬虫文件spider，spider的作用是（1）解析（2）发请求，原阅读全文

posted @ 2019-01-14 21:43 浮云遮月阅读(726) 评论(0) 推荐(0) 编辑

爬虫框架scrapy（2）post请求，传递item参数，加速爬虫效率，UA池及代理池

摘要： scrapy 发送post请求核心：重写父类 start_requests方法，默认的 start_requests方法提交的是yield scrapy.Request(url=url,formdata=formdata,callback=self.parse)这种get请求，改写为 yield 阅读全文

posted @ 2019-01-14 21:41 浮云遮月阅读(1094) 评论(0) 推荐(0) 编辑

爬虫框架scrapy（1）持久化存储的多种方式及多页爬取数据

摘要： Linux：pip3 install scrapy window: a:pip3 install wheel b:下载twisted高性能异步模块 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c:进入下载的目录执行pip3 install 阅读全文

posted @ 2019-01-14 21:25 浮云遮月阅读(492) 评论(0) 推荐(0) 编辑

浮云遮月

公告