学霸君主

2020年7月17日

摘要： 15.5 Gerapy 分布式管理我们可以通过 Scrapyd-Client 将 Scrapy 项目部署到 Scrapyd 上，并且可以通过 Scrapyd API 来控制 Scrapy 的运行。那么，我们是否可以做到更优化？方法是否可以更方便可控？我们重新分析一下当前可以优化的问题。使用 S 阅读全文

posted @ 2020-07-17 12:36 学霸君主阅读(300) 评论(0) 推荐(1) 编辑

13.11 Scrapyrt 的使用

摘要： 13.11 Scrapyrt 的使用 Scrapyrt 为 Scrapy 提供了一个调度的 HTTP 接口。有了它我们不需要再执行 Scrapy 命令，而是通过请求一个 HTTP 接口即可调度 Scrapy 任务，我们就不需要借助于命令行来启动项目了。如果项目是在远程服务器运行，利用它来启动项目是个阅读全文

posted @ 2020-07-17 12:33 学霸君主阅读(408) 评论(0) 推荐(0) 编辑

13.6 Spider Middleware 的用法

摘要： 13.6 Spider Middleware 的用法 Spider Middleware 是介入到 Scrapy 的 Spider 处理机制的钩子框架。我们首先来看看它的架构，如图 13-1 所示。当 Downloader 生成 Response 之后，Response 会被发送给 Spider，阅读全文

posted @ 2020-07-17 12:31 学霸君主阅读(380) 评论(0) 推荐(0) 编辑

8.2 极验滑动验证码的识别

摘要： 8.2 极验滑动验证码的识别上节我们了解了可以直接利用 tesserocr 来识别简单的图形验证码。近几年出现了一些新型验证码，其中比较有代表性的就是极验验证码，它需要拖动拼合滑块才可以完成验证，相对图形验证码来说识别难度上升了几个等级。本节将讲解极验验证码的识别过程。 1. 本节目标我们的目标阅读全文

posted @ 2020-07-17 12:24 学霸君主阅读(1626) 评论(0) 推荐(0) 编辑

5.1　文件存储

摘要： 5.1　文件存储文件存储形式多种多样，比如可以保存成 TXT 纯文本形式，也可以保存为 JSON 格式、CSV 格式等，本节就来了解一下文本文件的存储方式。 5.1.1　TXT 文本存储将数据保存到 TXT 文本的操作非常简单，而且 TXT 文本几乎兼容任何平台，但是这有个缺点，那就是不利于检索阅读全文

posted @ 2020-07-17 12:19 学霸君主阅读(352) 评论(0) 推荐(0) 编辑

4.2 使用 Beautiful Soup

摘要： 4.2 使用 Beautiful Soup 前面介绍了正则表达式的相关用法，但是一旦正则表达式写的有问题，得到的可能就不是我们想要的结果了。而且对于一个网页来说，都有一定的特殊结构和层级关系，而且很多节点都有 id 或 class 来作区分，所以借助它们的结构和属性来提取不也可以吗？这一节中，我们阅读全文

posted @ 2020-07-17 12:18 学霸君主阅读(267) 评论(0) 推荐(0) 编辑

3.4　抓取猫眼电影排行

摘要： 3.4　抓取猫眼电影排行本节中，我们利用 requests 库和正则表达式来抓取猫眼电影 TOP100 的相关内容。requests 比 urllib 使用更加方便，而且目前我们还没有系统学习 HTML 解析库，所以这里就选用正则表达式来作为解析工具。 1. 本节目标本节中，我们要提取出猫眼电影阅读全文

posted @ 2020-07-17 12:17 学霸君主阅读(391) 评论(0) 推荐(0) 编辑

2.5 代理的基本原理

摘要： 2.5 代理的基本原理我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么美好，然而一杯茶的功夫可能就会出现错误，比如 403 Forbidden，这时候打开网页一看，可能会看到 “您的 IP 访问频率太高” 这样的提示。出现这种现象的原因是网站采取了一些反阅读全文

posted @ 2020-07-17 12:16 学霸君主阅读(257) 评论(0) 推荐(0) 编辑

第二章爬虫基础

摘要：第二章爬虫基础在写爬虫之前，我们还需要了解一些基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies 的基本原理等。本章中，我们就对这些基础知识做一个简单的总结。阅读全文

posted @ 2020-07-17 12:14 学霸君主阅读(103) 评论(0) 推荐(0) 编辑

1.8　爬虫框架的安装

摘要： 1.8　爬虫框架的安装我们直接用 requests、Selenium 等库写爬虫，如果爬取量不是太大，速度要求不高，是完全可以满足需求的。但是写多了会发现其内部许多代码和组件是可以复用的，如果我们把这些组件抽离出来，将各个功能模块化，就慢慢会形成一个框架雏形，久而久之，爬虫框架就诞生了。利用框架阅读全文

posted @ 2020-07-17 12:13 学霸君主阅读(421) 评论(0) 推荐(0) 编辑

公告