潭州课堂25班:Ph201805201 爬虫高级 第二课 scrapy 框架 (课堂笔记)

 

 

 

 

win 下安装 scrapy

先安装 pip install wheel

 

py 库下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

在这个网址中下载  Scrapy  和  twisted ,pywin32

下载  twisted,在其所在文件夹十打开  cmd , pip install  安装 ,之后安装 Scrapy,

 

用这行命令

scrapy startproject pyjy

测试是否成功,如果 成功 在  C:\Users\Administrator\data  下将有新项目

 

 

 

 

 

 

 

 

 

创建 spiders 文件,:打开该文件夹,在该文件夹下打开cmd,

输入 scrapy genspider example example.com

此时可以看到多了个 py 文件

 

查看可执行文件: scrapy list

 

运行命令: scrapy crawl example

 

 

robots协议

当 parse 方法没有运行,

 

 

 修改头文件

 

 

 

豆瓣数据

 

 

 

 

 

 

 

 

 

 

 

 

由 scheduler 发送访问请求,经过 engine 到达 downloader ,如果用户要对这些请求做配置,在这些模块之间有个下载中间件

在这个中间件中实现用户对这三个模块间的数据流可配置的控制。

 spiders 对整个框架提供最裙的访问连接,同时对每次返回的内容进行解析,再次产生爬取请求,解析 downloader 返回的用户响应,产生爬取向,产生额外的爬取请求

itempipelines 以流水线处理 spiders 产生的爬取向

在 spiders 和 engine 之间还有个爬虫中间件,是对 spiders 产生的请求或爬取向进行再处理

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

posted @ 2018-09-27 13:26  25班Ph201805201  阅读(201)  评论(0编辑  收藏  举报