Scrapy框架
1 scrapy框架初始
1,scrapy框架的介绍
scrapy是基于Twisted异步框架的爬虫框架, scrapy也是异步的. # 优点: 1.爬取效率高 2.组件化, 适合开发大型的爬虫
2 安装与配置
lxml, pywin32, wheel, Twisted, scrapy
# 本地安装
pip install Twisted....whl
3,项目的创建与目录结构
# django项目和APP的创建 django-admin startproject projectname python manage.py startapp appname python manage.py runserver python manage.py runserver IP:port # vue项目的创建 vue init webpack projectname cnpm install cnpm install axios --save npm run dev # scrapy scrapy startproject projectname cd 项目名 scrapy genspider pw baidu.com scrapy crawl pw scrapy crawl pw --nolog
目录结果
项目文件夹
项目名文件夹
spiders文件夹
爬虫文件: 定义了爬取的行为和解析的方法
items.py: 定义爬取的字段
pipelines.py: 管道
middlewares.py: 中间件
settings.py: 项目配置
project.cfg: 配置文件--> 部署有关
五的核心组件与数据流
1.五大核心组件:爬虫, 引擎, 调度器, 下载器, 管道