python爬虫---scrapy解析数，settings配置提高爬取效率，持久化方案，全站爬取cnblogs，加代理，cookie，header加入selenium，去重规则源码分析，scrapy-redis实现分布式爬虫

scrapy解析数据
- 重点
settings相关配置，提高爬取效率
- 基础的一些
- 增加爬虫的爬取效率
持久化方案
全站爬取cnblogs文章
- request和response对象传递参数
- 解析下一页并继续爬取
爬虫和下载中间件
加代理，cookie，header，加入selenium
去重规则源码分析（布隆过滤器）
- 布隆过滤器
scrapy-redis实现分布式爬虫

scrapy解析数据

response对象有css方法和xpath方法：

-css中写css选择器

-xpath中写xpath选择

重点

-xpath取文本内容
'.//a[contains(@class,"link-title")]/text()'
-xpath取属性
'.//a[contains(@class,"link-title")]/@href'
-css取文本
'a.link-title::text'
-css取属性
'img.image-scale::attr(src)'
.extract_first()  取一个
.extract()        取所有

案例

    def parse(self, response):
        article_list = response.css('article.post-item')
        print(len(article_list))
        for article in article_list:
            title = article.css('a.post-item-title::text').extract_first()
            desc = article.css('p.post-item-summary::text').extract()
            real_desc = desc[0].replace('\n', '').replace(' ', '')
            if not real_desc:
                real_desc = desc[1].replace('\n', '').replace(' ', '')
            pub_time = article.css('span.post-meta-item>span::text').extract_first()
            author = article.css('footer.post-item-foot span::text').extract_first()
            url = article.css('a.post-item-title::attr(href)').extract_first()
            print(title)
            print(real_desc)
            print(pub_time)
            print(author)
            print(url)
            print('--------')

settings相关配置，提高爬取效率

基础的一些

是否遵循爬虫协议

ROBOTSTXT_OBEY = False

LOG_LEVEL 日志级别

LOG_LEVEL='ERROR'  # 报错如果不打印日志，在控制台看不到错误

USER_AGENT

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'

DEFAULT_REQUEST_HEADERS 默认请求头

DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
}

SPIDER_MIDDLEWARES爬虫中间件

SPIDER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsSpiderMiddleware': 543,
}

DOWNLOADER_MIDDLEWARES 下载中间件

DOWNLOADER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsDownloaderMiddleware': 543,
}

ITEM_PIPELINES 持久化配置

ITEM_PIPELINES = {
    'cnblogs.pipelines.CnblogsPipeline': 300,
}

增加爬虫的爬取效率

增加并发

默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改
CONCURRENT_REQUESTS = 100
值为100,并发设置成了为100。

降低日志级别

在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：
LOG_LEVEL = 'INFO

禁止cookie

如果不是真的需要cookie，则在scrapy爬取数据时可以禁止cookie从而减少CPU的使用率，提升爬取效率。在配置文件中编写：
COOKIES_ENABLED = False

禁止重试

对失败的HTTP进行重新请求（重试）会减慢爬取速度，因此可以禁止重试。在配置文件中编写：
RETRY_ENABLED = False

减少下载超时

如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速被放弃，从而提升效率。在配置文件中进行编写：
DOWNLOAD_TIMEOUT = 10 超时时间为10s

持久化方案

第一种：(不用)

-解析函数中parse，要return [{},{},{}]
-scrapy crawl cnblogs -o 文件名(json,pkl,csv结尾)

第二种：（通用的）---》pipline模式

-1 在items.py中写一个类，继承scrapy.Item
-2 在类中写属性
title = scrapy.Field()
-3 在爬虫中导入类，实例化得到对象，把要保存的数据放到对象中
item['title'] = title
解析类中 yield item
-4 修改配置文件，指定pipline，数字表示优先级，越小越大
ITEM_PIPELINES = {
    'crawl_cnblogs.pipelines.CrawlCnblogsPipeline': 300,
}
-5 写一个pipline：CrawlCnblogsPipeline
-open_spider:数据初始化，打开文件，打开数据库链接
-process_item：真正存储的地方
-一定不要忘了return item，交给后续的pipline继续使用
-close_spider：销毁资源，关闭文件，关闭数据库链接

全站爬取cnblogs文章

request和response对象传递参数

1 在request对象中
Request(url=url, callback=self.parse_detail,meta={'item':item})
2 在response对象中
item=response.meta['item']

解析下一页并继续爬取

next='https://www.cnblogs.com'+response.css('.pager a:last-child::attr(href)').extract_first()
print(next)
# yield Request(url=next,callback=self.parse)
yield Request(url=next)

爬虫和下载中间件

settings.py中

# SPIDER_MIDDLEWARES 爬虫中间件 （了解即可，用的少）

SPIDER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsSpiderMiddleware': 543,
}

# DOWNLOADER_MIDDLEWARES  下载中间件（用的多）
DOWNLOADER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsDownloaderMiddleware': 543,
}

最终要的是下载中间件，里面的两个方法

class CnblogsDownloaderMiddleware:
    # 请求来的时候
    def process_request(self, request, spider):
        # - return None: 继续执行下一个中间件的process_request
        # - return a Response object ：直接返回给engin，去解析
        # - return a Request object ：给engin，再次被放到调度器中
        # - raise IgnoreRequest: 执行 process_exception()方法
        return None
    # 响应走的时候
    def process_response(self, request, response, spider):
        # - return a Response ：继续走下一个中间件的process_response，给engin，进爬虫解析
        # - return a Request ：给engin，进入调度器，等待下一次爬取
        # - raise IgnoreRequest：抛异常
        return response

加代理，cookie，header，加入selenium

加代理

    def process_request(self, request, spider):
        print('下载中间件：',request)
        request.meta['proxy'] = 'http://221.6.215.202:9091'

        return None

加cookie,修改请求头，随机生成UserAgent

0 在下载中间件的process_reqeust方法中
1 加cookie
	# request.cookies['name']='lqz'
    # request.cookies= {}
2 修改header
	  # request.headers['Auth']='asdfasdfasdfasdf'
      # request.headers['USER-AGENT']='ssss'

3 fake_useragent模块，可以随机生成user-aget
	    from fake_useragent import UserAgent
        ua = UserAgent()
        print(ua.ie)   #随机打印ie浏览器任意版本
        print(ua.firefox) #随机打印firefox浏览器任意版本
        print(ua.chrome)  #随机打印chrome浏览器任意版本
        print(ua.random)  #随机打印任意厂家的浏览器

集成selenium

-在爬虫类中类属性
	driver = webdriver.Chrome(executable_path='')
-在爬虫类中方法：
   def close(spider, reason):
      spider.driver.close()
-在中间件中的process_reqeust中
    from scrapy.http import HtmlResponse
    spider.driver.get(url=request.url)
    response=HtmlResponse(url=request.url,body=spider.driver.page_source.encode('utf-8'),request=request)
    return response

-注意：有的地址使用selenium，有的地址不用，根据url判断

去重规则源码分析（布隆过滤器）

scrapy 实现了去重，爬过的网址不会再爬了

-使用集合去重

 -DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'

-只要爬取过的地址，就不爬了，原因就是这个方法返回了True

class RFPDupeFilter(BaseDupeFilter)
    	def request_seen(self, request: Request) -> bool:
            # 把request生成指纹，如果request对象的url一样，指纹就一样
            fp = self.request_fingerprint(request)
            if fp in self.fingerprints:
                return True
            self.fingerprints.add(fp)
            if self.file:
                self.file.write(fp + '\n')
            return False

-爬虫开始爬取时，执行了爬虫类对象的：start_requests方法---》start_urls是起始爬取的地址

-爬虫去重的规则应该在scrapy.core.scheduler调度器源码中---》enqueue_request---》调用了去重类（RFPDupeFilter）对象的，request_seen方法来完成去重，本质是使用集合去重的

# 每次爬取的地址对象request生成一个指纹，判断是否在集合中，如果在集合中，就不爬取了，如果不在，就爬取并且把生成的指纹放到集合中
    # 为什么要生成指纹：把下面这种地址生成指纹后，生成的是一样的
    	www.cnblogs.com?name=lqz&age=19
        www.cnblogs.com?age=19&name=lqz
    # 测试生成指纹
    from scrapy.utils.request import request_fingerprint
    from scrapy import Request
    ur1=Request(url='http://www.cnblogs.com?name=lqz&age=19')
    ur2=Request(url='http://www.cnblogs.com?age=20&name=lqz')
    print(request_fingerprint(ur1))
    print(request_fingerprint(ur2))
# 爬取的网址少还行，如果特别多 ，如果有1亿条网址，会占非常大的内存空间
	-放在集合中得字符串：a6af0a0ffa18a9b2432550e1914361b6bffcff1a
    
# 大数据量的去重：布隆过滤器，极小空间实现去重
	-https://zhuanlan.zhihu.com/p/94668361

布隆过滤器

大数据量的去重：布隆过滤器，极小空间实现去重

python 中实现布隆过滤器

# 方式一：错误率可以控制
 from pybloom_live import ScalableBloomFilter
 bloom = ScalableBloomFilter(initial_capacity=100, error_rate=0.001, mode=ScalableBloomFilter.LARGE_SET_GROWTH)
 url = "www.cnblogs.com"
 url2 = "www.liuqingzheng.top"
 bloom.add(url)
 print(url in bloom)
 print(url2 in bloom)
    
    
# 方式二无法控制错误率
from pybloom_live import BloomFilter
bf = BloomFilter(capacity=1000)
url='www.baidu.com'
bf.add(url)
print(url in bf)
print("www.liuqingzheng.top" in bf)

# 后期你可以自己写一个类，替换掉内置的去重
-重写
    class MyRFPDupeFilter(RFPDupeFilter):
    	fingerprints=布隆过滤器
-布隆过滤器：极小内存校验是否重复

scrapy-redis实现分布式爬虫

第一步：安装scrapy-redis

pip3 install scrapy-redis

第二步：改造爬虫类

from scrapy_redis.spiders import RedisSpider
    class CnblogSpider(RedisSpider):
        name = 'cnblog_redis'
        allowed_domains = ['cnblogs.com']
        # 写一个key：redis列表的key，起始爬取的地址
        redis_key = 'myspider:start_urls'

第三步：配置文件配置

 # 分布式爬虫配置
    # 去重规则使用redis
    REDIS_HOST = 'localhost'                            # 主机名
    REDIS_PORT = 6379                                   # 端口
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    # 持久化：文件，mysql，redis
    ITEM_PIPELINES = {
       'cnblogs.pipelines.CnblogsFilePipeline': 300,
       'cnblogs.pipelines.CnblogsMysqlPipeline': 100,
       'scrapy_redis.pipelines.RedisPipeline': 400,
    }

第四步：在多台机器上启动scrapy项目

第五步：把起始爬取的地址放到redis的列表中

lpush myspider:start_urls value http://www.cnblogs.com/

posted @ 2022-08-04 20:14 早安_1207 阅读(127) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· python爬虫---requests模块，response属性，代理，超时，认证，异常和上传文件

· python爬虫---selenium基本使用，无界面浏览器，selenium其它用法，selenium登录cnblogs获取cookie，抽屉半自动点赞，爬虫案例

· 爬虫篇：scrapy爬虫框架

· scrapy框架

· 爬取的数据，存到mysql中、爬虫和下载中间件、加代理，cookie，header，加入selenium、去重规则源码分析（布隆过滤器）、scrapy-redis实现分布式爬虫

公告

昵称：早安_1207
园龄： 3年
粉丝： 11
关注： 9

+加关注

2025年3月

日

一

二

三

四

五

六

早安

不要让自己阻止自己过自己想过的生活