1 2 3 4
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 24 下一页
摘要: 13.10 Scrapy 通用爬虫 通过 Scrapy,我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大,比如爬取各大媒体的新闻信息,多个 Spider 则可能包含很多重复代码。 如果我们将各个站点的 Spider 的公共部分保留下来,不同的部分提取出来作为单独的配置,如爬取规则、页面 阅读全文
posted @ 2021-03-29 22:15 学霸君主 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 13.9 Scrapy 对接 Splash 在上一节我们实现了 Scrapy 对接 Selenium 抓取淘宝商品的过程,这是一种抓取 JavaScript 动态渲染页面的方式。除了 Selenium,Splash 也可以实现同样的功能。本节我们来了解 Scrapy 对接 Splash 来进行页面抓 阅读全文
posted @ 2021-03-29 22:14 学霸君主 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 第十四章 分布式爬虫 在上一章中,我们了解了 Scrapy 爬虫框架的用法。这些框架都是在同一台主机上运行的,爬取效率比较有限。如果多台主机协同爬取,那么爬取效率必然会成倍增长,这就是分布式爬虫的优势。 本章我们就来了解一下分布式爬虫的基本原理,以及 Scrapy 实现分布式爬虫的流程。 阅读全文
posted @ 2021-03-29 22:12 学霸君主 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 13.13 Scrapy 爬取新浪微博 前面讲解了 Scrapy 中各个模块基本使用方法以及代理池、Cookies 池。接下来我们以一个反爬比较强的网站新浪微博为例,来实现一下 Scrapy 的大规模爬取。 1. 本节目标 本次爬取的目标是新浪微博用户的公开基本信息,如用户昵称、头像、用户的关注、粉 阅读全文
posted @ 2021-03-29 21:40 学霸君主 阅读(599) 评论(0) 推荐(0) 编辑
摘要: 13.12 Scrapy 对接 Docker 环境配置问题可能一直是我们头疼的,我们可能遇到过如下的情况: 我们在本地写好了一个 Scrapy 爬虫项目,想要把它放到服务器上运行,但是服务器上没有安装 Python 环境。 别人给了我们一个 Scrapy 爬虫项目,项目中使用包的版本和我们本地环境版 阅读全文
posted @ 2021-03-29 21:39 学霸君主 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 14.4 Bloom Filter 的对接 首先回顾一下 Scrapy-Redis 的去重机制。Scrapy-Redis 将 Request 的指纹存储到了 Redis 集合中,每个指纹的长度为 40,例如 27adcc2e8979cdee0c9cecbbe8bf8ff51edefb61 就是一个指 阅读全文
posted @ 2021-03-29 21:37 学霸君主 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 14.3 Scrapy 分布式实现 接下来,我们会利用 Scrapy-Redis 来实现分布式的对接。 1. 准备工作 请确保已经成功实现了 Scrapy 新浪微博爬虫,Scrapy-Redis 库已经正确安装,如果还没安装,请参考第 1 章的安装说明。 2. 搭建 Redis 服务器 要实现分布式 阅读全文
posted @ 2021-03-29 21:36 学霸君主 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 14.2 Scrapy-Redis 源码解析 Scrapy-Redis 库已经为我们提供了 Scrapy 分布式的队列、调度器、去重等功能,其 GitHub 地址为:https://github.com/rmax/scrapy-redis。 本节我们深入了解一下,利用 Redis 如何实现 Scra 阅读全文
posted @ 2021-03-29 21:35 学霸君主 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 14.1 分布式爬虫原理 我们在前面已经实现了 Scrapy 微博爬虫,虽然爬虫是异步加多线程的,但是我们只能在一台主机上运行,所以爬取效率还是有限的,分布式爬虫则是将多台主机组合起来,共同完成一个爬取任务,这将大大提高爬取的效率。 1. 分布式爬虫架构 在了解分布式爬虫架构之前,首先回顾一下 Sc 阅读全文
posted @ 2021-03-29 21:34 学霸君主 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 15.4 Scrapyd 批量部署 我们在上一节实现了 Scrapyd 和 Docker 的对接,这样每台主机就不用再安装 Python 环境和安装 Scrapyd 了,直接执行一句 Docker 命令运行 Scrapyd 服务即可。但是这种做法有个前提,那就是每台主机都安装 Docker,然后再去 阅读全文
posted @ 2021-03-29 21:22 学霸君主 阅读(82) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 24 下一页