Scrapy

一 scrapy介绍安装--架构

1.1 安装

Scrapy 是一个爬虫框架（底层代码封装好了，只需要在固定位置写固定代码即可），应用领域比较广泛--->爬虫界的django


# 安装
#Windows平台
    1、pip3 install wheel #安装后，便支持通过wheel文件安装软件，wheel文件官网：https://www.lfd.uci.edu/~gohlke/pythonlibs
    3、pip3 install lxml
    4、pip3 install pyopenssl
    5、下载并安装pywin32：https://sourceforge.net/projects/pywin32/files/pywin32/
    6、下载twisted的wheel文件：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
    8、pip3 install scrapy

#Linux，mac平台
    1、pip3 install scrapy

1.2 scrapy架构

# 引擎(EGINE)：引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。大总管，负责整个爬虫数据的流动

# 调度器(SCHEDULER)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

#下载器(DOWLOADER) 用于下载网页内容, 并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的(效率很高，同时可以发送特别多请求出出)

#爬虫(SPIDERS) SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求

#项目管道(ITEM PIPLINES) 在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作

# 下载器中间件(Downloader Middlewares)位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，你可用该中间件做以下几件事

# 爬虫中间件(Spider Middlewares)位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests）

1.3 创建scrapy项目

# 创建scrapy项目--->使用命令cmd
	# 创建项目
	-scrapy startproject 项目名字
	# 创建爬虫 
    -scrapy genspider 爬虫名 爬虫网址
    -scrapy genspider cnblogs www.cnblogs.com
    
    # 启动爬虫
    scrapy crawl cnblogs
	

# 使用脚本运行爬虫
# 小myfirstcrawl/run.py
from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'cnblogs'])
# execute(['scrapy', 'crawl', 'cnblogs', '--nolog'])  不产生日志

spiders/cnblogs.py

import scrapy


# 爬虫类，继承了scrapy.Spider
class CnblogsSpider(scrapy.Spider):
    name = 'cnblogs'  # 爬虫名字
    allowed_domains = ['www.cnblogs.com']  # 允许爬取的域--->
    start_urls = ['http://www.cnblogs.com/']  # 开始爬取的地址

    def parse(self, response):
        print(response.text)  # http响应包装成了response
        # scrapy 内置了解析库，不需要使用第三方：支持xpath和css

二 scrapy项目目录结构

mysfirstscrapy  # 项目名
    mysfirstscrapy # 包
        spiders    # 包，里面放了自定义的爬虫，类似于app
            __init__.py
            baidu.py  # 百度爬虫
            cnblogs.py#cnblogs爬虫
        items.py      #类似于django的 models表模型，一个个模型类
        middlewares.py # 中间件
        pipelines.py #管道--->写持久化
        settings.py #项目配置文件
    scrapy.cfg  # 项目上线配置

 # 后期我们只关注spiders中得爬虫和pipelines持久化即可

三 scrapy解析数据

1 response对象有css方法和xpath方法
	-css中写css选择器
    -xpath中写xpath选择
2 重点1：
	-xpath取文本内容
	'.//a[contains(@class,"link-title")]/text()'
    -xpath取属性
    './/a[contains(@class,"link-title")]/@href'
    -css取文本
    'a.link-title::text'
    -css取属性
    'img.image-scale::attr(src)'
3 重点2：
	.extract_first()  取一个
    .extract()        取所有

3.1 css解析

import scrapy


# 爬虫类，继承了scrapy.Spider
class CnblogsSpider(scrapy.Spider):
    name = 'cnblogs'  # 爬虫名字
    allowed_domains = ['www.cnblogs.com']  # 允许爬取的域--->
    start_urls = ['http://www.cnblogs.com/']  # 开始爬取的地址

    def parse(self, response):
        # 解析出所有文章
        article_list = response.css('article.post-item')  # 列表中放对象
        print(len(article_list))
        # 继续解析文章详情：文章标题，文章摘要，作者图片，作者名字，文章详情地址
        for article in article_list:
            title = article.css('section>div>a.post-item-title::text').extract_first()
            desc = article.css('p.post-item-summary::text').extract()
            real_desc = desc[0].replace('\n', '').replace(' ', '')
            if real_desc:
                desc = real_desc
            else:
                real_desc = desc[1].replace('\n', '').replace(' ', '')
                desc = real_desc
            author_img = article.css('p.post-item-summary img::attr(src)').extract_first()
            author_name = article.css('footer.post-item-foot span::text').extract_first()
            url = article.css('div.post-item-text a::attr(href)').extract_first()
            print('''
            文章名字：%s
            文章摘要：%s
            作者图片：%s
            作者名字：%s
            文章地址：%s
            ''' % (title, desc, author_img, author_name, url))

3.2 xpath选择器

import scrapy


# 爬虫类，继承了scrapy.Spider
class CnblogsSpider(scrapy.Spider):
    name = 'cnblogs'  # 爬虫名字
    allowed_domains = ['www.cnblogs.com']  # 允许爬取的域--->
    start_urls = ['http://www.cnblogs.com/']  # 开始爬取的地址


    def parse(self, response):
        ######xpath选择器#####
        # 解析出所有文章
        article_list = response.xpath('//article[contains(@class,"post-item")]')  # 列表中放对象
        print(len(article_list))
        # 继续解析文章详情：文章标题，文章摘要，作者图片，作者名字，文章详情地址
        for article in article_list:
            # title = article.xpath('./section/div/a/text()').extract_first()
            title = article.xpath('.//a/text()').extract_first()
            desc = article.xpath('.//p[contains(@class,"post-item-summary")]/text()').extract()
            real_desc = desc[0].replace('\n', '').replace(' ', '')
            if real_desc:
                desc = real_desc
            else:
                real_desc = desc[1].replace('\n', '').replace(' ', '')
                desc = real_desc
            author_img = article.xpath('.//p//img/@src').extract_first()
            author_name = article.xpath('.//footer//span/text()').extract_first()
            url = article.xpath('.//div[contains(@class,"post-item-text")]//a/@href').extract_first()
            print('''
            文章名字：%s
            文章摘要：%s
            作者图片：%s
            作者名字：%s
            文章地址：%s
            ''' % (title, desc, author_img, author_name, url))

'''
一启动爬虫：把start_urls地址包装成request对象--->
丢给引擎--->调度器--->排队--->引擎--->下载中间件--->下载器--->下载完成--->引擎--->爬虫---->就回到了parse
'''

四 setting配置

4.1 基础配置

#1 了解
BOT_NAME = "firstscrapy"  #项目名字，整个爬虫名字
#2 爬虫存放位置    了解
SPIDER_MODULES = ["firstscrapy.spiders"]
NEWSPIDER_MODULE = "firstscrapy.spiders"

#3  记住 是否遵循爬虫协议，一般都设为False
ROBOTSTXT_OBEY = False
# 4 记住
USER_AGENT = "firstscrapy (+http://www.yourdomain.com)"

#5  记住  日志级别
LOG_LEVEL='ERROR'

#6   记住 DEFAULT_REQUEST_HEADERS 默认请求头
DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
}

#7 记住 后面学  SPIDER_MIDDLEWARES 爬虫中间件
SPIDER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsSpiderMiddleware': 543,
}
#8 后面学 DOWNLOADER_MIDDLEWARES  下载中间件
DOWNLOADER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsDownloaderMiddleware': 543,
}

#9 后面学 ITEM_PIPELINES 持久化配置
ITEM_PIPELINES = {
    'cnblogs.pipelines.CnblogsPipeline': 300,
}

4.2 高级配置(提高爬虫效率--scarpy框架)

#1 增加并发：默认16
默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改
CONCURRENT_REQUESTS = 100
值为100,并发设置成了为100。

#2 降低日志级别：
在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：
LOG_LEVEL = 'INFO'


# 3 禁止cookie：
如果不是真的需要cookie，则在scrapy爬取数据时可以禁止cookie从而减少CPU的使用率，提升爬取效率。在配置文件中编写：
COOKIES_ENABLED = False

# 4 禁止重试：
对失败的HTTP进行重新请求（重试）会减慢爬取速度，因此可以禁止重试。在配置文件中编写：
RETRY_ENABLED = False

# 5 减少下载超时：
如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速被放弃，从而提升效率。在配置文件中进行编写：
DOWNLOAD_TIMEOUT = 10 超时时间为10s

补充：后端如何防爬虫

	-1 频率限制（ip,用户）
    -2 尽量登录后才能访问
    -3 爬虫可以拿到cookie，token模拟发送请求
    	-3.1 请求头携带发送请求时间 时间戳--->后端中间件中取出请求头中得时间戳，跟当前时间做比较，如果时间过长，就返回错误
        -3.2 请求头中带sign签名--->签名自己的规则生成
        	-项目名+时间戳+项目名--->md5摘要
            -后端：项目名+时间戳+项目名跟传入的sign比较，如果一样
        -3.3 整个对请求体进行加密
        	-有的只加密了一部分
            -有的直接全部把请求体加密
            	-app端把请求体全加密---->拦截器取出请求体--->同样秘钥解密

五持久化

# 爬回来，解析完了，想存储，有两种方案
## 方案一：一般不用   parse必须有return值，必须是列表套字典形式--->使用命令，可以保存到json格式中，csv中
-命令
    scrapy crawl cnblogs -o cnbogs.json  #以json形式保存
    scrapy crawl cnblogs -o cnbogs.csv  #以csv形式保存
-cnbogs.json
	    def parse(self, response):
        l = []
        # ...解析数据的代码
        l.append({'title': title, 'desc': desc, 'author_img': author_img, 'author_name': author_name, 'url': url})
        return l
    
#### 方案二： 我们用的，使用pipline存储--->可以存到多个位置

第一步：在item.py中写一个类

import scrapy

# 等同于django的模型类
class MyCnblogItem(scrapy.Item):
    title = scrapy.Field()
    desc = scrapy.Field()
    author_img = scrapy.Field()
    author_name = scrapy.Field()
    url = scrapy.Field()
    # 博客文章内容，但是暂时没有
    content = scrapy.Field()

第二步：在pipline.py中写代码，写一个类：

写几个方法

open_spider：开启爬虫会触发
close_spider：爬完会触发
process_item:每次要保存一个对象会触发

# 数据保存在文件中
class MyCnblogPipeline:
    def open_spider(self, spider):
        print('我开了')
        # 打开文件
        self.f = open('cnblog.txt', 'wt', encoding='utf-8')

    def close_spider(self, spider):
        # 关闭文件
        print('我关了')

    def process_item(self, item, spider):
        print('走这里了')
        # item 当前被处理到的在cnblogs.py 的parser中yield item
        # 保存在文件中
        self.f.write('文章标题：%s，文章摘要：%s，作者名字：%s，作者头像：%s，文章链接：%s\n'
                     % (item['title'], item['desc'], item['author_name'], item['author_img'], item['url']))
        return item  # 如果不返回，后续的pipline就拿不到了


import pymysql


# 存入MySQL中
class MySQLCnblogPipeline:
    def open_spider(self, spider):
        print('我开了')
        # 链接pmysql
        self.conn = pymysql.connect(
            user='root',
            password='1113',
            host='127.0.0.1',
            port=3306,
            database='cnblog',
        )
        self.course = self.conn.cursor()

    def close_spider(self, spider):
        # 关闭文件
        print('我关了')
        self.course.close()
        self.conn.close()

    def process_item(self, item, spider):
        sql = 'insert into article (title,url,`desc`,author_name,author_img) values (%s,%s,%s,%s,%s)'
        self.course.execute(sql,
                            args=[item['title'], item['url'], item['desc'], item['author_name'], item['author_img']])
        self.conn.commit()  # 最好每次操作数据库后就提交一次，这样如果中间断开，之前的数据也不会消失
        return item  # 如果不返回，后续的pipline就拿不到了

第三步：配置文件配置

# 管道，数字代表优先级
ITEM_PIPELINES = {
   "myfirstcrawl.pipelines.MyCnblogPipeline": 300,  # 数字越小，优先级越高
   "myfirstcrawl.pipelines.MySQLCnblogPipeline": 301,
}

第四步：在解析方法parse中yield item对象

import scrapy
from myfirstcrawl.items import MyCnblogItem


class CnblogsSpider(scrapy.Spider):
    name = 'cnblogs' 
    allowed_domains = ['www.cnblogs.com']  
    start_urls = ['http://www.cnblogs.com/']  

    def parse(self, response):
        # 解析文章数据
        article_list = response.css('article.post-item') 
        for article in article_list:
            # 实例化一个item对象，对象是引用类型，最好每篇文章都生成自己的item对象
            item = MyCnblogItem()
            title = article.css('section>div>a.post-item-title::text').extract_first()
            desc = article.css('p.post-item-summary::text').extract()
            real_desc = desc[0].replace('\n', '').replace(' ', '')
            if real_desc:
                desc = real_desc
            else:
                real_desc = desc[1].replace('\n', '').replace(' ', '')
                desc = real_desc
            author_img = article.css('p.post-item-summary img::attr(src)').extract_first()
            author_name = article.css('footer.post-item-foot span::text').extract_first()
            url = article.css('div.post-item-text a::attr(href)').extract_first()

            # 往item对象中放值
            item['title'] = title  # 不能使用点的形式放值，只能使用索引
            item['desc'] = desc
            item['author_img'] = author_img
            item['author_name'] = author_name
            item['url'] = url
            yield item

六全站爬取cnblgos

继续爬取下一页
爬取文章详情

# Request创建：在parse中，for循环中，创建Request对象时，传入meta
	# item对象一定要在for循环中创建，否则，当前页面都用同一个item导致同一页数据都一样
	yield Request(url=url, callback=self.detail_parse,meta={'item':item})
# 在parser_detail中取出来
	item=response.meta.get('item')
# Response对象：detail_parse中，通过response取出meta取出item，把文章详情写入
	def parser_detail(self,response):
        # content = response.css('#cnblogs_post_body').extract_first()
        item=response.meta.get('item')
        content=str(response.xpath('//div[@id="cnblogs_post_body"]').extract_first())
        item['content']=content
        yield item

cnblogs.py

from myfirstcrawl.items import MyCnblogItem
from scrapy import Request
# from scrapy.http.request import Request


class CnblogsSpider(scrapy.Spider):
    name = 'cnblogs'  # 爬虫名字
    allowed_domains = ['www.cnblogs.com']  # 允许爬取的域
    start_urls = ['http://www.cnblogs.com/']  # 开始爬取的地址

    def parse(self, response):
        article_list = response.css('article.post-item')  # 列表中放对象
        for article in article_list:
            # 实例化一个item对象，对象是引用类型，最好每篇文章都生成自己的item对象
            item = MyCnblogItem()
            title = article.css('section>div>a.post-item-title::text').extract_first()
            desc = article.css('p.post-item-summary::text').extract()
            real_desc = desc[0].replace('\n', '').replace(' ', '')
            if real_desc:
                desc = real_desc
            else:
                real_desc = desc[1].replace('\n', '').replace(' ', '')
                desc = real_desc
            author_img = article.css('p.post-item-summary img::attr(src)').extract_first()
            author_name = article.css('footer.post-item-foot span::text').extract_first()
            url = article.css('div.post-item-text a::attr(href)').extract_first()

            # 往item对象中放值
            item['title'] = title  # 不能使用点的形式放值，只能使用索引
            item['desc'] = desc
            item['author_img'] = author_img
            item['author_name'] = author_name
            item['url'] = url
            # yield item
            # 需要解析文章详情，把本篇文章的item对象传入，这样好解析文章详情
            yield Request(url=url, callback=self.parser_detail, meta={'item': item})  # 详情地址，继续爬取，详情页面解析用parser_detail

        # 解析出下一页地址，然后 yield 一个对象，请求对象(对象中要放入要爬取的地址)
        # 下一页地址
        next = 'https://www.cnblogs.com' + response.css('div.pager> a:last-child::attr(href)').extract_first()
        # next = 'https://www.cnblogs.com' + response.xpath('//div[contains(@class,"pager")]/a[last()]/@href').extract_first()
        # print(next)  # 拿到地址，继续爬取，组装成一个Request对象

        # callback 参数是控制返回response后使用的解析方法
        yield Request(url=next, callback=self.parse)  # 下一页地址，继续爬取，解析还是用parse时，callback可以省略

    def parser_detail(self, response):
        # 文章详情的解析函数
        # 1.获取item对象
        item = response.meta.get('item')
        # print(item)
        # 2.文章详情内容
        content = response.xpath('//div[@id="cnblogs_post_body"]').extract_first()  # 字符串形式
        # content = response.css('#cnblogs_post_body').extract_first()
        # 3.把content内容加到item对象中，后续好保存
        item['content'] = content
        # 4.数据已经增加结束，使用pipline存储，需要yield出item对象
        yield item

items.py

# 等同于django的模型类
class MyCnblogItem(scrapy.Item):
    title = scrapy.Field()
    desc = scrapy.Field()
    author_img = scrapy.Field()
    author_name = scrapy.Field()
    url = scrapy.Field()
    # 博客文章内容，但是暂时没有
    content = scrapy.Field()

piplines.py

import pymysql


# 存入MySQL中
class MySQLCnblogPipeline:
    def open_spider(self, spider):
        print('我开了')
        # 增加个计数器
        self.count = 0
        # 链接pmysql
        self.conn = pymysql.connect(
            user='root',
            password='1113',
            host='127.0.0.1',
            port=3306,
            database='cnblog',
        )
        self.cursor = self.conn.cursor()

    def close_spider(self, spider):
        # 关闭文件
        print('我关了')
        self.cursor.close()
        self.conn.close()

    def process_item(self, item, spider):
        self.count += 1
        # print('进入了------')
        # print(self.count)
        sql = 'insert into article (title,url,`desc`,author_name,author_img,content) values (%s,%s,%s,%s,%s,%s)'
        self.cursor.execute(sql,
                            args=[item['title'], item['url'], item['desc'],
                                  item['author_name'], item['author_img'], item['content']])
        self.conn.commit()  # 最好每次操作数据库后就提交一次，这样如果中间断开，之前的数据也不会消失
        return item  # 如果不返回，后续的pipline就拿不到了

settings.py

# 管道，数字代表优先级
ITEM_PIPELINES = {
   # "myfirstcrawl.pipelines.MyCnblogPipeline": 301,  # 数字越小，优先级越高
   "myfirstcrawl.pipelines.MySQLCnblogPipeline": 300,
}

七爬虫中间件和下载中间件

# 爬虫中间件：爬虫和引擎之间
	-用的很少，了解即可

# 下载中间件：引擎和下载器之间
	-用的多，能干啥？
    -进来request对象
    	-加代理
        -加cookie
        -加请求头
    -出去response对象
    	-修改响应对象，最后进入到爬虫的parser中就是修改后的response

爬虫中间件

# 爬虫中间件 (了解) middlewares.py
class MysfirstscrapySpiderMiddleware:

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        return None

    def process_spider_output(self, response, result, spider):
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        pass

    def process_start_requests(self, start_requests, spider):
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

下载中间件

class MysfirstscrapyDownloaderMiddleware:

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    # 请求来了执行
    def process_request(self, request, spider):
        # 返回值可以是如下：
        # return None:继续处理本次请求，执行执行下一个中间件的process_request
        # return Response对象：执行当前中间件的process_response回去，进入到引擎，被调度，进入第6步，返回到爬虫的解析方法中
        # return a Request：直接返回，给引擎，等待被调度，进入第2步，进入调度器等待下次被调度爬取
        # raise IgnoreRequest:抛异常，执行 process_exception
        return None

    # 请求走了
    def process_response(self, request, response, spider):
        # 返回值可以是如下：
        # return Response ：继续往后走，进入到引擎，被调度到爬虫中解析
        # return Request ：进入到引擎，被调度进调度器
        # raise IgnoreRequest：抛异常，会执行process_exception
        return response

    def process_exception(self, request, exception, spider):
        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

        
# 在配置文件中配置
# 下载中间件
DOWNLOADER_MIDDLEWARES = {
   "myfirstcrawl.middlewares.MyfirstcrawlDownloaderMiddleware": 543,
}

八 scrapy加代理，cookie，header

8.1 加代理

# 在下载中间件的def process_request(self, request, spider):写代码

# 第一步：
	-在下载中间件写process_request方法
   	 def get_proxy(self):
        import requests
        res = requests.get('http://127.0.0.1:5010/get/').json()
        if res.get('https'):
            return 'https://' + res.get('proxy')
        else:
            return 'http://' + res.get('proxy')
     def process_request(self, request, spider):
        	# 加代理
            request.meta['proxy'] = self.get_proxy()
            return None
        
# 第二步：代理可能不能用，会触发process_exception，在里面写
    def process_exception(self, request, exception, spider):
        print('-----',request.url)  # 这个地址没有爬
        return request

8.2 加cookie

   # 加cookie
    def process_request(self, request, spider):
        print(request.cookies)
        request.cookies['name']='lqz'
        return None
    
# settings中，打开cookie
COOKIES_ENABLED = True

8.3 修改请求头

    # 修改请求头:referer，Authorization
    def process_request(self, request, spider):
        print(request.headers)
        request.headers['referer'] = 'http://www.lagou.com'
        return None

8.4 随机生成UserAgent

# pip3.8 install fake_useragent

    # 动态生成User-agent使用
    def process_request(self, request, spider):
        # fake_useragent模块：随机生成请求头
        from fake_useragent import UserAgent
        ua = UserAgent()
        request.headers['User-Agent']=str(ua.random)
        print(request.headers)

        return None

九 scrapy集成selenium

# 使用scrapy默认下载器--->类似于requests模块发送请求，不能执行js，有的页面拿回来数据不完整

# 想在scrapy中集成selenium，获取数据更完整，获取完后，自己组装成 Response对象，就会进爬虫解析，现在解析的是使用selenium拿回来的页面，数据更完整

# 集成selenium 因为有的页面，是执行完js后才渲染完，必须使用selenium去爬取数据才完整


# 保证整个爬虫中，只有一个浏览器器
# 只要爬取 下一页这种地址，使用selenium，爬取详情，继续使用原来的

# 第一步：在爬虫类中写
from selenium import webdriver
class CnblogsSpider(scrapy.Spider):
    bro = webdriver.Chrome()
    bro.implicitly_wait(10)
    def close(spider, reason):
        spider.bro.close() #浏览器关掉
        
# 第二步：在中间件中
    def process_request(self, request, spider):
        # 爬取下一页这种地址--->用selenium，但是文章详情，就用原来的
        if 'sitehome/p' in request.url:
            spider.bro.get(request.url)
            from scrapy.http.response.html import HtmlResponse
            response = HtmlResponse(url=request.url, body=bytes(spider.bro.page_source, encoding='utf-8'))
            return response
        else:
            return None

十源码去重规则(布隆过滤器)

原理

# 如果爬取过的地址，就不会再爬了

# 调度器可以去重，研究一下，如何去重的--->使用了集合



# 要爬取的Request对象，在进入到scheduler调度器排队之前，先执行enqueue_request，它如果return False，这个Request就丢弃掉，不爬了---->如何判断这个Request要不要丢弃掉，执行了self.df.request_seen(request)，它来决定的----->RFPDupeFilter类中的方法---->request_seen--->会返回True或False---->如果这个request在集合中，说明爬过了，就return True，如果不在集合中，就加入到集合中，然后返回False

# 调度器源码
from scrapy.core.scheduler import Scheduler
	# 这个方法如果return True表示这个request要爬取，如果return False表示这个网址就不爬了(已经爬过了)
    def enqueue_request(self, request: Request) -> bool:
        # request当次要爬取的地址对象
        if self.df.request_seen(request):
            # 有的请情况，在爬虫中解析出来的网址，不想爬了，就就可以指定
            # yield Request(url=url, callback=self.detail_parse, meta={'item': item},dont_filter=True)
            # 如果符合这个条件，表示这个网址已经爬过了 
            return False
        return True
    
    
    
# self.df 去重类 是去重类的对象 RFPDupeFilter
    -在配置文件中如果配置了：DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'表示，使用它作为去重类，按照它的规则做去重
    -RFPDupeFilter的request_seen
       def request_seen(self, request: Request) -> bool:
        # request_fingerprint 生成指纹
        fp = self.request_fingerprint(request) #request当次要爬取的地址对象
        #判断 fp 在不在集合中，如果在，return True
        if fp in self.fingerprints:
            return True
        #如果不在，加入到集合，return False
        self.fingerprints.add(fp)
        return False

    
# 传进来是个request对象，生成的是指纹
	-爬取的网址：https://www.cnblogs.com/teach/p/17238610.html?name=lqz&age=19
    -和         https://www.cnblogs.com/teach/p/17238610.html?age=19&name=lqz
    -它俩是一样的，返回的数据都是一样的，就应该是一条url，就只会爬取一次
    -所以 request_fingerprint  就是来把它们做成一样的(核心原理是把查询条件排序，再拼接到后面)
    
   
    -生成指纹，指纹是什么？ 生成的指纹放到集合中去重
    	-www.cnblogs.com?name=lqz&age=19
        -www.cnblogs.com?age=19&name=lqz
        -上面的两种地址生成的指纹是一样的
        # 测试指纹
        from scrapy.utils.request import RequestFingerprinter
        from scrapy import Request

        fingerprinter = RequestFingerprinter()
        request1 = Request(url='http://www.cnblogs.com?name=lqz&age=20')
        request2 = Request(url='http://www.cnblogs.com?age=20&name=lqz')

        res1 = fingerprinter.fingerprint(request1).hex()
        res2 = fingerprinter.fingerprint(request2).hex()
        print(res1)
        print(res2)
        
        
# 集合去重，集合中放 
# a一个bytes
# 假设爬了1亿条url，放在内存中，占空间非常大
a6af0a0ffa18a9b2432550e1914361b6bffcff1a
a6af0a0ffa18a9b2432550e191361b6bffc34f1a

# 想一种方式，极小内存实现去重--->布隆过滤器

使用布隆过滤器

# 总结：scrapy的去重规则
	-根据配置的去重类RFPDupeFilter的request_seen方法，如果返回True，就不爬了，如果返回False就爬
    -后期咱们可以使用自己定义的去重类，实现去重
    
    
 # 更小内存实现去重
	-如果是集合：存的数据库越多，占内存空间越大，如果数据量特别大，可以使用布隆过滤器实现去重

 # 布隆过滤器：https://zhuanlan.zhihu.com/p/94668361
	#bloomfilter：是一个通过多哈希函数映射到一张表的数据结构，能够快速的判断一个元素在一个集合内是否存在，具有很好的空间和时间效率。（典型例子，爬虫url去重）

	# 原理： BloomFilter 会开辟一个m位的bitArray(位数组)，开始所有数据全部置 0 。当一个元素（www.baidu.com）过来时，能过多个哈希函数（h1,h2,h3....）计算不同的在哈希值，并通过哈希值找到对应的bitArray下标处，将里面的值 0 置为 1 。

    

# Python中使用布隆过滤器
# 测试布隆过滤器
# 可以自动扩容指定错误率，底层数组如果大于了错误率会自动扩容
# from pybloom_live import ScalableBloomFilter
# bloom = ScalableBloomFilter(initial_capacity=100, error_rate=0.001, mode=ScalableBloomFilter.LARGE_SET_GROWTH)
# url = "www.cnblogs.com"
# url2 = "www.liuqingzheng.top"
# bloom.add(url)
# bloom.add(url2)
# print(url in bloom)
# print(url2 in bloom)

from pybloom_live import BloomFilter

bf = BloomFilter(capacity=10)
url = 'www.baidu.com'
bf.add(url)
bf.add('aaaa')
bf.add('ggg')
bf.add('deww')
bf.add('aerqaaa')
bf.add('ae2rqaaa')
bf.add('aerweqaaa')
bf.add('aerwewqaaa')
bf.add('aerereweqaaa')
bf.add('we')


print(url in bf)
print("wa" in bf)



# 如果有去重的情况，就可以使用集合--->但是集合占的内存空间大，如果到了亿级别的数据量，想一种更小内存占用，而去重的方案---->布隆过滤器
# 布隆过滤器：通过不同的hash函数，加底层数组实现的极小内存去重
# python中如何使用：pybloom_live  
	-指定错误率
    -指定大小

   
# 使用redis实现布隆过滤器
	-编译redis--->把第三方扩展布隆过滤器编译进去，才有这个功能
	-https://zhuanlan.zhihu.com/p/94668736

# 重写scrapy的过滤类

十一分布式爬虫

# 原来scrapy的Scheduler维护的是本机的任务队列（待爬取的地址）+本机的去重队列（放在集合中）--->在本机内存中
# 如果把scrapy项目，部署到多台机器上，多台机器爬取的内容是重复的


# 所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如Redis，
然后重写Scrapy的Scheduler，让新的Scheduler到共享队列存取Request，并且去除重复的Request请求，所以总结下来，实现分布式的关键就是三点：
    #1、多台机器共享队列
    #2、重写Scheduler，让其无论是去重还是任务都去访问共享队列
    #3、为Scheduler定制去重规则（利用redis的集合类型）
    
    
# scrapy-redis实现分布式爬虫
	-公共的去重
    -公共的待爬取地址队列
    
    
    
#  使用步骤
	1 把之前爬虫类，继承class CnblogsSpider(RedisSpider):
     2 去掉起始爬取的地址，加入一个类属性
    	redis_key = 'myspider:start_urls'  # redis列表的key，后期我们需要手动插入起始地址
        
     3 配置文件中配置
        DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"  # scrapy redis去重类，使用redis的集合去重
        # 不使用原生的调度器了，使用scrapy_redis提供的调度器，它就是使用了redis的列表
        SCHEDULER = "scrapy_redis.scheduler.Scheduler"
        REDIS_HOST = 'localhost'                            # 主机名
        REDIS_PORT = 6379                                   # 端口
        ITEM_PIPELINES = {
       # 'mysfirstscrapy.pipelines.MyCnblogsPipeline': 300,
       'mysfirstscrapy.pipelines.MyCnblogsMySqlPipeline': 301,
        'scrapy_redis.pipelines.RedisPipeline': 400,
    }
        
    # 再不同多台机器上运行scrapy的爬虫，就实现了分布式爬虫

posted @ 2023-08-07 22:00 星空看海阅读(37) 评论(0) 编辑收藏举报

刷新页面返回顶部

zjyao

Scrapy

一 scrapy介绍安装--架构

1.1 安装

1.2 scrapy架构

1.3 创建scrapy项目

二 scrapy项目目录结构

三 scrapy解析数据

3.1 css解析

3.2 xpath选择器

四 setting配置

4.1 基础配置

4.2 高级配置(提高爬虫效率--scarpy框架)

五持久化

六全站爬取cnblgos

cnblogs.py

items.py

piplines.py

settings.py

七爬虫中间件和下载中间件

爬虫中间件

下载中间件

八 scrapy加代理，cookie，header

8.1 加代理

8.2 加cookie

8.3 修改请求头

8.4 随机生成UserAgent

九 scrapy集成selenium

十源码去重规则(布隆过滤器)

原理

使用布隆过滤器

十一分布式爬虫

公告

zjyao

Scrapy

一 scrapy介绍安装--架构

1.1 安装

1.2 scrapy架构

1.3 创建scrapy项目

二 scrapy项目目录结构

三 scrapy解析数据

3.1 css解析

3.2 xpath选择器

四 setting配置

4.1 基础配置

4.2 高级配置(提高爬虫效率--scarpy框架)

五 持久化

六 全站爬取cnblgos

cnblogs.py

items.py

piplines.py

settings.py

七 爬虫中间件和下载中间件

爬虫中间件

下载中间件

八 scrapy加代理，cookie，header

8.1 加代理

8.2 加cookie

8.3 修改请求头

8.4 随机生成UserAgent

九 scrapy集成selenium

十 源码去重规则(布隆过滤器)

原理

使用布隆过滤器

十一 分布式爬虫

公告

五持久化

六全站爬取cnblgos

七爬虫中间件和下载中间件

十源码去重规则(布隆过滤器)

十一分布式爬虫