学霸君主

2021年3月30日

摘要：第六章 Ajax 数据爬取有时候我们在用 requests 抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用 requests 得到的结果并没有。这是因为 requests 获取的都是原始的 HTML 文档，而浏览器中的页面则是经过 JavaS 阅读全文

posted @ 2021-03-30 21:25 学霸君主阅读(42) 评论(0) 推荐(0)

5.3 非关系型数据库存储

摘要： 5.3 非关系型数据库存储 NoSQL，全称 Not Only SQL，意为不仅仅是 SQL，泛指非关系型数据库。NoSQL 是基于键值对的，而且不需要经过 SQL 层的解析，数据之间没有耦合性，性能非常高。非关系型数据库又可细分如下。键值存储数据库：代表有 Redis、Voldemort 和阅读全文

posted @ 2021-03-30 21:22 学霸君主阅读(345) 评论(0) 推荐(0)

5.2　关系型数据库存储

摘要： 5.2　关系型数据库存储关系型数据库是基于关系模型的数据库，而关系模型是通过二维表来保存的，所以它的存储方式就是行列组成的表，每一列是一个字段，每一行是一条记录。表可以看作某个实体的集合，而实体之间存在联系，这就需要表与表之间的关联关系来体现，如主键外键的关联关系。多个表组成一个数据库，也就是关系阅读全文

posted @ 2021-03-30 21:19 学霸君主阅读(508) 评论(0) 推荐(0)

6.4　分析 Ajax 爬取今日头条街拍美图

摘要： 6.4　分析 Ajax 爬取今日头条街拍美图本节中，我们以今日头条为例来尝试通过分析 Ajax 请求来抓取网页数据的方法。这次要抓取的目标是今日头条的街拍美图，抓取完成之后，将每组图片分文件夹下载到本地并保存下来。 1. 准备工作在本节开始之前，请确保已经安装好 requests 库。如果没有安阅读全文

posted @ 2021-03-30 21:16 学霸君主阅读(171) 评论(0) 推荐(0)

6.3　Ajax 结果提取

摘要： 6.3　Ajax 结果提取这里仍然以微博为例，接下来用 Python 来模拟这些 Ajax 请求，把我发过的微博爬取下来。 1. 分析请求打开 Ajax 的 XHR 过滤器，然后一直滑动页面以加载新的微博内容。可以看到，会不断有 Ajax 请求发出。选定其中一个请求，分析它的参数信息。点击该请阅读全文

posted @ 2021-03-30 20:41 学霸君主阅读(141) 评论(0) 推荐(0)

6.2 Ajax 分析方法

摘要： 6.2 Ajax 分析方法这里还以前面的微博为例，我们知道拖动刷新的内容由 Ajax 加载，而且页面的 URL 没有变化，那么应该到哪里去查看这些 Ajax 请求呢？ 1. 查看请求这里还需要借助浏览器的开发者工具，下面以 Chrome 浏览器为例来介绍。首先，用 Chrome 浏览器打开微博阅读全文

posted @ 2021-03-30 20:38 学霸君主阅读(83) 评论(0) 推荐(0)

7.2 Splash 的使用

摘要： 7.2 Splash 的使用 Splash 是一个 JavaScript 渲染服务，是一个带有 HTTP API 的轻量级浏览器，同时它对接了 Python 中的 Twisted 和 QT 库。利用它，我们同样可以实现动态渲染页面的抓取。 1. 功能介绍利用 Splash 我们可以实现如下功能：阅读全文

posted @ 2021-03-30 20:35 学霸君主阅读(341) 评论(0) 推荐(0)

7.1 Selenium 的使用

摘要： 7.1 Selenium 的使用 Selenium 是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。对于一些 JavaScript 动态渲染的页面来说，此种抓取方式非常有效。本节中，就让我们来感受一下它的强大之阅读全文

posted @ 2021-03-30 20:31 学霸君主阅读(201) 评论(0) 推荐(0)

第七章动态渲染页面抓取

摘要：第七章动态渲染页面抓取在前一章中，我们了解了 Ajax 的分析和抓取方式，这其实也是 JavaScript 动态渲染的页面的一种情形，通过直接分析 Ajax，我们仍然可以借助 requests 或 urllib 来实现数据爬取。不过 JavaScript 动态渲染的页面不止 Ajax 这一种。阅读全文

posted @ 2021-03-30 20:28 学霸君主阅读(105) 评论(0) 推荐(0)

8.1 图形验证码的识别

摘要： 8.1 图形验证码的识别我们首先识别最简单的一种验证码，即图形验证码。这种验证码最早出现，现在也很常见，一般由 4 位字母或者数字组成。例如，中国知网的注册页面有类似的验证码，链接为：http://my.cnki.net/elibregister/commonRegister.aspx，页面如图阅读全文

posted @ 2021-03-30 20:25 学霸君主阅读(513) 评论(0) 推荐(0)

公告