scrapy框架初识

什么是框架

  其实就是一个具有很强通用性且集成了很多功能的项目模板

如何学习框架

  掌握框架的功能,可以熟练使用每一种功能即可

爬虫框架--scrapy框架:

  在爬虫中集成了异步,高性能的数据解析,高性能的持久化存储.....

scrapy环境的安装:

      a. pip3 install wheel

      b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

      c. 进入下载目录,执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

      d. pip3 install pywin32

      e. pip3 install scrapy
测试:在终端中录入scrapy 如果没有报错就是安装的没有问题

a.打开cmd窗口  对a进行操作  安装wheel

b.下载twisted    链接:www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

c.进入下载twisted的目录,点击shift+右键   打开powershell窗口    在powershell窗口里面输入 pip install .\Twisted-18.9.0-cp36-cp36m-win_amd64.whl 

 

d.e.在powershell窗口输入 pip3 install pywin32  pip3 install scrapy 对着两个插件进行安装

a.b.c.d.e步骤都完成后 在窗口界面输入scrapy 如果没有报错 就是安装完成

scrapy的使用流程:
-1. 创建一个工程:scrapy startproject ProName
-2.cd ProName
-3. 创建一个爬虫文件:scrapy genspider spiderName www.xxx.com
  - settings.py里面设置
ROBOTSTXT_OBEY = False
-4. 执行工程:scrapy crawl spiderName
  -去除日志:scrapy crawl spidername --nolog
  -只显示错误日志 在settings.便宜文件中增加 LOG_LEVEL = 'ERROR' 这句话后就只显示错误日志,其他日志不显示
  -settings.py文件中的USER_AGENTE 可以做UA伪装
  数据解析在paras下 response.xpath() 通过scrapy封装的xpath来解析

 1.打开pycham,创建一个工程

 

 


2.cd到工程目录下面

3.创建一个爬虫文件

# -*- coding: utf-8 -*-
import scrapy


class FirstSpider(scrapy.Spider):
    #爬虫文件的名称:爬虫文件的唯一标识
    name = 'first'
    #允许的域名,这里会限定起始url列表的url,这里一般都会注释掉:
    # allowed_domains = ['www.baidu.com']
    #起始的url列表:列表中存放的url都会被scrapy进行自动的请求发送
    start_urls = ['https://www.baidu.com/','https://www.xxfgfhfghfg.com']

    #是用来解析起始的url列表返回的响应数据
    def parse(self, response):
        print(response.text)
        response.xpath('fdsfds')

 

4.执行工程:scrapy crawl spiderName

 settings里面的设置

#只显示错误日志  
      - LOG_LEVEL = 'ERROR'
#item的管道设置
      - ITEM_PIPELINES = {
                   'qiubaiByPages.pipelines.QiubaibypagesPipeline': 300,
                }   
#反爬机制     
      - ROBOTSTXT_OBEY = False
#UA检测
      - USER_AGENT = 'Mozil'

 

 

 

 

 
 

 

posted @ 2019-06-17 17:14  QV  阅读(200)  评论(0编辑  收藏  举报