Scrapy

介绍

Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性强，可以灵活完成各种需求

它可以分为以下几个部分

Scrapy 中的数据流由引擎控制，数据流的过程如下：

Engine 打开一个网站，找到处理该网站的 Spider。并向该 Spider 请求第一个要爬取的 URL
Engine 从 Spider 中国区第一个要爬去的 URL，并通过 Scheduler 以及 Request 的形式调度
Engine 向 Scheduler 请求下一个要爬取的 URL
Schedler 返回下一个要爬取的 URL 给 Engine ，Engine将 URL 通过Downloader Middlewares 转发给 Downloader 下载
一旦页面下载完毕, Downloader 生成该页面的 Response，并将其通过 Downloader Middlewares 发送给 Engine
Engine 从下载器中接收到 Response，并将其通过 Spider Middlewares 发送给 Spider 处理
Spider 处理 Response ，并返回爬取到的 Item 及新的 Response 给 Engine
Engine 将 Spider 返回的 Item 给 Item Pipline，将新的 Request 给 Scheduler
重复 2--8 之间的操作，直到 Scheduler 中没有更多的 Request， Engine 关闭该网页，爬取结束

下载pip install scrapy

参考 Scrapy框架安装失败解决办法

scrapy startproject first

cd first
scrapy genspider firstboold www.xxx.com

进入项目文件夹下，然后执行 genspider 命令，'firstboold'为文件的名字(自定义),'www.xxx.com'为岂是URL(在文件中可更改)

在配置文件(settings.py)中设置User-Agent / 日志等级 / 是否遵从 RBOTES协议 / 开启管道等

scrapy crawl firstboold

posted @ 2019-08-08 23:00 __Invoker 阅读(253) 评论(0) 收藏举报

刷新页面返回顶部