1 2 3 4

Scrapy框架

1  scrapy框架初始

 

   1,scrapy框架的介绍

       

scrapy是基于Twisted异步框架的爬虫框架, scrapy也是异步的.
# 优点:
1.爬取效率高
2.组件化, 适合开发大型的爬虫

2  安装与配置

     

lxml, pywin32, wheel, Twisted, scrapy
# 本地安装
pip install Twisted....whl

3,项目的创建与目录结构

    

# django项目和APP的创建
django-admin startproject projectname
python manage.py startapp appname
python manage.py runserver
python manage.py runserver IP:port
# vue项目的创建
vue init webpack projectname
cnpm install 
cnpm install axios --save
npm run dev
# scrapy
scrapy startproject projectname
cd 项目名
scrapy genspider pw baidu.com
scrapy crawl pw
scrapy crawl pw --nolog

目录结果

    

项目文件夹
    项目名文件夹
        spiders文件夹
            爬虫文件: 定义了爬取的行为和解析的方法
        items.py: 定义爬取的字段
        pipelines.py: 管道
        middlewares.py: 中间件
        settings.py: 项目配置
    project.cfg: 配置文件--> 部署有关

五的核心组件与数据流

     

1.五大核心组件:爬虫, 引擎,  调度器,  下载器, 管道

 

posted @ 2020-09-02 10:42  发哥奇妙IT之旅  阅读(156)  评论(0编辑  收藏  举报