2021 年 7月 11 日随笔档案 - 千叶千影

2021年7月11日

摘要： 1.Scrapy架构图(绿线是数据流向) Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列阅读全文

posted @ 2021-07-11 23:57 千叶千影阅读(86) 评论(0) 推荐(0) 编辑

scrapyd+gerapy之爬虫部署

摘要：一、Linux上安装scrapyd 1. linux下安装python3 可参考我之前博文：https://www.cnblogs.com/Liu928011/p/14864190.html 2. 安装scrapyd并配置软链接安装scrapyd：pip3 install scrapyd 配置软链阅读全文

posted @ 2021-07-11 23:13 千叶千影阅读(134) 评论(0) 推荐(0) 编辑

scrapy-redis实现分布式爬虫

摘要：什么是分布式爬虫分布式爬虫就是多台计算机上都安装爬虫程序，重点是联合采集。单机爬虫就是只在一台计算机上的爬虫。其实搜索引擎都是爬虫，负责从世界各地的网站上爬取内容，当你搜索关键词时就把相关的内容展示给你，只不过他们那都是灰常大的爬虫，爬的内容量也超乎想象，也就无法再用单机爬虫去实现，而是使用分布阅读全文

posted @ 2021-07-11 22:35 千叶千影阅读(329) 评论(0) 推荐(0) 编辑

网络爬虫之协程

摘要：一、协程的定义协程又叫微线程，比线程还要小的一个单位；协程不是计算机提供的，是程序员自己创造出来的；协程是一个用户态的上下文切换技术，简单来说，就是通过一个线程去实现代码块（函数）之间的相互切换执行。二、协程的特点 1. 使用协程时不需要考虑全局变量安全性的问题。 2. 协程必须要在单线程中实现阅读全文

posted @ 2021-07-11 12:43 千叶千影阅读(209) 评论(0) 推荐(0) 编辑

千叶千影

--路漫漫其修远兮，吾将上下而求索

公告