摘要: 1.Scrapy架构图(绿线是数据流向) Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列 阅读全文
posted @ 2021-07-11 23:57 千叶千影 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 一、Linux上安装scrapyd 1. linux下安装python3 可参考我之前博文:https://www.cnblogs.com/Liu928011/p/14864190.html 2. 安装scrapyd并配置软链接 安装scrapyd:pip3 install scrapyd 配置软链 阅读全文
posted @ 2021-07-11 23:13 千叶千影 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 什么是分布式爬虫 分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集。单机爬虫就是只在一台计算机上的爬虫。 其实搜索引擎都是爬虫,负责从世界各地的网站上爬取内容,当你搜索关键词时就把相关的内容展示给你,只不过他们那都是灰常大的爬虫,爬的内容量也超乎想象,也就无法再用单机爬虫去实现,而是使用分布 阅读全文
posted @ 2021-07-11 22:35 千叶千影 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 一、协程的定义 协程又叫微线程,比线程还要小的一个单位;协程不是计算机提供的,是程序员自己创造出来的;协程是一个用户态的上下文切换技术,简单来说,就是通过一个线程去实现代码块(函数)之间的相互切换执行。 二、协程的特点 1. 使用协程时不需要考虑全局变量安全性的问题。 2. 协程必须要在单线程中实现 阅读全文
posted @ 2021-07-11 12:43 千叶千影 阅读(209) 评论(0) 推荐(0) 编辑