学霸君主

2021年3月29日

摘要： 13.10 Scrapy 通用爬虫通过 Scrapy，我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大，比如爬取各大媒体的新闻信息，多个 Spider 则可能包含很多重复代码。如果我们将各个站点的 Spider 的公共部分保留下来，不同的部分提取出来作为单独的配置，如爬取规则、页面阅读全文

posted @ 2021-03-29 22:15 学霸君主阅读(159) 评论(0) 推荐(0)

13.9 Scrapy 对接 Splash

摘要： 13.9 Scrapy 对接 Splash 在上一节我们实现了 Scrapy 对接 Selenium 抓取淘宝商品的过程，这是一种抓取 JavaScript 动态渲染页面的方式。除了 Selenium，Splash 也可以实现同样的功能。本节我们来了解 Scrapy 对接 Splash 来进行页面抓阅读全文

posted @ 2021-03-29 22:14 学霸君主阅读(179) 评论(0) 推荐(0)

第十四章分布式爬虫

摘要：第十四章分布式爬虫在上一章中，我们了解了 Scrapy 爬虫框架的用法。这些框架都是在同一台主机上运行的，爬取效率比较有限。如果多台主机协同爬取，那么爬取效率必然会成倍增长，这就是分布式爬虫的优势。本章我们就来了解一下分布式爬虫的基本原理，以及 Scrapy 实现分布式爬虫的流程。阅读全文

posted @ 2021-03-29 22:12 学霸君主阅读(30) 评论(0) 推荐(0)

13.13 Scrapy 爬取新浪微博

摘要： 13.13 Scrapy 爬取新浪微博前面讲解了 Scrapy 中各个模块基本使用方法以及代理池、Cookies 池。接下来我们以一个反爬比较强的网站新浪微博为例，来实现一下 Scrapy 的大规模爬取。 1. 本节目标本次爬取的目标是新浪微博用户的公开基本信息，如用户昵称、头像、用户的关注、粉阅读全文

posted @ 2021-03-29 21:40 学霸君主阅读(805) 评论(0) 推荐(0)

13.12 Scrapy 对接 Docker

摘要： 13.12 Scrapy 对接 Docker 环境配置问题可能一直是我们头疼的，我们可能遇到过如下的情况：我们在本地写好了一个 Scrapy 爬虫项目，想要把它放到服务器上运行，但是服务器上没有安装 Python 环境。别人给了我们一个 Scrapy 爬虫项目，项目中使用包的版本和我们本地环境版阅读全文

posted @ 2021-03-29 21:39 学霸君主阅读(127) 评论(0) 推荐(0)

14.4 Bloom Filter 的对接

摘要： 14.4 Bloom Filter 的对接首先回顾一下 Scrapy-Redis 的去重机制。Scrapy-Redis 将 Request 的指纹存储到了 Redis 集合中，每个指纹的长度为 40，例如 27adcc2e8979cdee0c9cecbbe8bf8ff51edefb61 就是一个指阅读全文

posted @ 2021-03-29 21:37 学霸君主阅读(97) 评论(0) 推荐(0)

14.3 Scrapy 分布式实现

摘要： 14.3 Scrapy 分布式实现接下来，我们会利用 Scrapy-Redis 来实现分布式的对接。 1. 准备工作请确保已经成功实现了 Scrapy 新浪微博爬虫，Scrapy-Redis 库已经正确安装，如果还没安装，请参考第 1 章的安装说明。 2. 搭建 Redis 服务器要实现分布式阅读全文

posted @ 2021-03-29 21:36 学霸君主阅读(97) 评论(0) 推荐(0)

14.2 Scrapy-Redis 源码解析

摘要： 14.2 Scrapy-Redis 源码解析 Scrapy-Redis 库已经为我们提供了 Scrapy 分布式的队列、调度器、去重等功能，其 GitHub 地址为：https://github.com/rmax/scrapy-redis。本节我们深入了解一下，利用 Redis 如何实现 Scra 阅读全文

posted @ 2021-03-29 21:35 学霸君主阅读(145) 评论(0) 推荐(0)

14.1 分布式爬虫原理

摘要： 14.1 分布式爬虫原理我们在前面已经实现了 Scrapy 微博爬虫，虽然爬虫是异步加多线程的，但是我们只能在一台主机上运行，所以爬取效率还是有限的，分布式爬虫则是将多台主机组合起来，共同完成一个爬取任务，这将大大提高爬取的效率。 1. 分布式爬虫架构在了解分布式爬虫架构之前，首先回顾一下 Sc 阅读全文

posted @ 2021-03-29 21:34 学霸君主阅读(86) 评论(0) 推荐(0)

15.4 Scrapyd 批量部署

摘要： 15.4 Scrapyd 批量部署我们在上一节实现了 Scrapyd 和 Docker 的对接，这样每台主机就不用再安装 Python 环境和安装 Scrapyd 了，直接执行一句 Docker 命令运行 Scrapyd 服务即可。但是这种做法有个前提，那就是每台主机都安装 Docker，然后再去阅读全文

posted @ 2021-03-29 21:22 学霸君主阅读(123) 评论(0) 推荐(0)

公告