摘要: 前言 写一写Spider中间件吧,都凌晨了,一点都不想写,主要是也没啥用…哦不,是平时用得少。因为工作上的事情,已经拖更好久了,这次就趁着半夜写一篇。 Scrapy-deltafetch插件是在Spider中间件实现的去重逻辑,开发过程中个人用的还是比较少一些的。 作用 依旧是那张熟悉的架构图,不出 阅读全文
posted @ 2022-12-07 16:02 我爱编程到完 阅读(47) 评论(0) 推荐(0) 编辑
摘要: 前言 “又回到最初的起点,呆呆地站在镜子前”。 本来这篇是打算写Spider中间件的,但是因为这一块涉及到Item,所以这篇文章先将Item讲完,顺便再讲讲Pipeline,然后再讲Spider中间件。 Item和Pipeline 依旧是先上架构图。 从架构图中可以看出,当下载器从网站获取了网页响应 阅读全文
posted @ 2022-12-07 16:01 我爱编程到完 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 前言 MiddleWare,顾名思义,中间件。主要处理请求(例如添加代理IP、添加请求头等)和处理响应。 本篇文章主要讲述下载器中间件的概念,以及如何使用中间件和自定义中间件。 MiddleWare分类 依旧是那张熟悉的架构图。 从图中看,中间件主要分为两类: Downloader MiddleWa 阅读全文
posted @ 2022-12-07 16:00 我爱编程到完 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 前言 代码未动,配置先行。本篇文章主要讲述一下Scrapy中的配置文件settings.py的参数含义,以及如何去获取一个爬虫程序的运行性能指标。 这篇文章无聊的一匹,没有代码,都是配置化的东西,但是呢不学还不行,属于Scrapy的枢纽,很关键。所以还请各位看官老爷耐得住这一章的寂寞。 settin 阅读全文
posted @ 2022-12-07 15:59 我爱编程到完 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 第三 阅读全文
posted @ 2022-12-07 15:59 我爱编程到完 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 1 阅读全文
posted @ 2022-12-07 15:57 我爱编程到完 阅读(27) 评论(1) 推荐(0) 编辑
摘要: 前言 Scrapy is coming!! 在写了七篇爬虫基础文章之后,终于写到心心念念的Scrapy了。Scrapy开启了爬虫2.0的时代,让爬虫以一种崭新的形式呈现在开发者面前。 在18年实习的时候开始接触Scrapy,花了一个月的时间,理论结合实践学习了Scrapy。本篇文章不写代码操作,只讲 阅读全文
posted @ 2022-12-07 15:53 我爱编程到完 阅读(83) 评论(1) 推荐(0) 编辑
摘要: 前言 一个小姐姐拿着一个switch的选择题来问我。 之所以这么笃定地回答这个问题,并不是我知道其中原理,而是之前在一个群里,有人问了同类型的问题,我瞥了一眼记住了答案,所以才依葫芦画瓢。 小姐姐接着问我为什么,我说少个break,但凡再问一句:为什么少个break结果就不一样,我就回答不出来了。所 阅读全文
posted @ 2022-12-07 15:52 我爱编程到完 阅读(42) 评论(1) 推荐(0) 编辑
摘要: 前言 前两天刚买了个腾讯服务器(CVM),这次登陆上去的时候特别卡,通过top发现负载特别高,因为是刚搭建的环境,也没有运行什么应用程序,所以我觉得这有点不正常。 我就想着把docker、mysql的后台服务停了,然后再观察一下负载能不能降下来,结果我发现常用的命令都无法使用了。 后来发现是dock 阅读全文
posted @ 2022-12-07 15:48 我爱编程到完 阅读(21) 评论(1) 推荐(0) 编辑
摘要: Flink端到端的一致性 - source端(kafka consumer) 偏移量保存下来, 如果后续任务出现了故障,恢复的时候可以由连接器重置偏移量,重新 消费数据,保证一致性。 - 内部 (checkpoint 机制) • 基于 Chandy-Lamport 算法的分布式快照算法• 将检查点的 阅读全文
posted @ 2022-12-07 15:35 我爱编程到完 阅读(12) 评论(1) 推荐(0) 编辑