#Sprapy爬虫框架初了解

Scrapy的安装

cmd命令提示符下：执行pip install scrapy命令

maybe你会用到的指令或安装(如果用pip指令安装不了，你可以在CSN或度里面找资源)：

ENGINE（发动机）不需要用户修改
- 控制所有模块之间的数据流
- 根据条件出发事件
SCHEDULER（调度程序）不需要用户修改
- 对所有爬取请求进行调度管理
ITEM PIPELINES （项目管道组件）
- 以流水线方式处理Spider产生的爬取项。
- 由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型
- 操作包括：对Item内容清理、检验、查重爬取项中的HTML数据、将数据存储到数据库
SPIDERS（蜘蛛侠）用户主要编写
- 解析Downloader返回的响应(Response)
- 产生爬取项(scraped item)
- 产生额外的新的爬取请求(Request)
DOWNLOADER （下载侠）不需要用户修改
- 根据用户提供的请求下载网页
- 根据用户提供的请求向网络中提交一个请求，最终获得返回的一个内容
中间键1 Downloader Middleware
- 目的：实施Engine ->Downloader这段过程时进行用户可配置的控制
- 功能：修改、丢弃、新增请求或响应
中间键2 Spider Middleware
- 目的：对Spiders和Engine之间的Request、Response、和Item操作进行处理
- 功能：修改、丢弃、新增请求或爬取项

scrapy -h

posted @ 2017-12-01 17:38 何嘉晨的博客哦阅读(614) 评论(0) 编辑收藏举报

刷新页面返回顶部