scrapy框架初识

什么是框架

　　其实就是一个具有很强通用性且集成了很多功能的项目模板

如何学习框架

　　掌握框架的功能,可以熟练使用每一种功能即可

爬虫框架--scrapy框架:

　　在爬虫中集成了异步,高性能的数据解析,高性能的持久化存储.....

scrapy环境的安装:

      a. pip3 install wheel

      b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

      c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

      d. pip3 install pywin32

      e. pip3 install scrapy

测试:在终端中录入scrapy 如果没有报错就是安装的没有问题

a.打开cmd窗口对a进行操作安装wheel

b.下载twisted 链接:www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

c.进入下载twisted的目录,点击shift+右键打开powershell窗口在powershell窗口里面输入 pip install .\Twisted-18.9.0-cp36-cp36m-win_amd64.whl

d.e.在powershell窗口输入 pip3 install pywin32  pip3 install scrapy 对着两个插件进行安装

a.b.c.d.e步骤都完成后 在窗口界面输入scrapy  如果没有报错  就是安装完成

scrapy的使用流程:

-1. 创建一个工程:scrapy startproject ProName
-2.cd ProName
-3. 创建一个爬虫文件:scrapy genspider spiderName www.xxx.com
　　- settings.py里面设置ROBOTSTXT_OBEY = False

-4. 执行工程:scrapy crawl spiderName
　　-去除日志:scrapy crawl spidername --nolog
　　-只显示错误日志   在settings.便宜文件中增加 LOG_LEVEL = 'ERROR'  这句话后就只显示错误日志,其他日志不显示
　　-settings.py文件中的USER_AGENTE  可以做UA伪装
　　数据解析在paras下  response.xpath()   通过scrapy封装的xpath来解析

1.打开pycham,创建一个工程


2.cd到工程目录下面

3.创建一个爬虫文件

# -*- coding: utf-8 -*-
import scrapy


class FirstSpider(scrapy.Spider):
    #爬虫文件的名称:爬虫文件的唯一标识
    name = 'first'
    #允许的域名,这里会限定起始url列表的url,这里一般都会注释掉:
    # allowed_domains = ['www.baidu.com']
    #起始的url列表:列表中存放的url都会被scrapy进行自动的请求发送
    start_urls = ['https://www.baidu.com/','https://www.xxfgfhfghfg.com']

    #是用来解析起始的url列表返回的响应数据
    def parse(self, response):
        print(response.text)
        response.xpath('fdsfds')

4.执行工程:scrapy crawl spiderName

settings里面的设置

#只显示错误日志　　
      - LOG_LEVEL = 'ERROR'
#item的管道设置
      - ITEM_PIPELINES = {
                   'qiubaiByPages.pipelines.QiubaibypagesPipeline': 300,
                }   
#反爬机制     
      - ROBOTSTXT_OBEY = False
#UA检测
      - USER_AGENT = 'Mozil'

posted @ 2019-06-17 17:14 QV 阅读(200) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

python学习之路

scrapy框架初识

公告