1 2 3 4
上一页 1 2 3 4 5 6 7 ··· 24 下一页
摘要: 第六章 Ajax 数据爬取 有时候我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有。这是因为 requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaS 阅读全文
posted @ 2021-03-30 21:25 学霸君主 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 5.3 非关系型数据库存储 NoSQL,全称 Not Only SQL,意为不仅仅是 SQL,泛指非关系型数据库。NoSQL 是基于键值对的,而且不需要经过 SQL 层的解析,数据之间没有耦合性,性能非常高。 非关系型数据库又可细分如下。 键值存储数据库:代表有 Redis、Voldemort 和 阅读全文
posted @ 2021-03-30 21:22 学霸君主 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 5.2 关系型数据库存储 关系型数据库是基于关系模型的数据库,而关系模型是通过二维表来保存的,所以它的存储方式就是行列组成的表,每一列是一个字段,每一行是一条记录。表可以看作某个实体的集合,而实体之间存在联系,这就需要表与表之间的关联关系来体现,如主键外键的关联关系。多个表组成一个数据库,也就是关系 阅读全文
posted @ 2021-03-30 21:19 学霸君主 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 6.4 分析 Ajax 爬取今日头条街拍美图 本节中,我们以今日头条为例来尝试通过分析 Ajax 请求来抓取网页数据的方法。这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来。 1. 准备工作 在本节开始之前,请确保已经安装好 requests 库。如果没有安 阅读全文
posted @ 2021-03-30 21:16 学霸君主 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 6.3 Ajax 结果提取 这里仍然以微博为例,接下来用 Python 来模拟这些 Ajax 请求,把我发过的微博爬取下来。 1. 分析请求 打开 Ajax 的 XHR 过滤器,然后一直滑动页面以加载新的微博内容。可以看到,会不断有 Ajax 请求发出。 选定其中一个请求,分析它的参数信息。点击该请 阅读全文
posted @ 2021-03-30 20:41 学霸君主 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 6.2 Ajax 分析方法 这里还以前面的微博为例,我们知道拖动刷新的内容由 Ajax 加载,而且页面的 URL 没有变化,那么应该到哪里去查看这些 Ajax 请求呢? 1. 查看请求 这里还需要借助浏览器的开发者工具,下面以 Chrome 浏览器为例来介绍。 首先,用 Chrome 浏览器打开微博 阅读全文
posted @ 2021-03-30 20:38 学霸君主 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 7.2 Splash 的使用 Splash 是一个 JavaScript 渲染服务,是一个带有 HTTP API 的轻量级浏览器,同时它对接了 Python 中的 Twisted 和 QT 库。利用它,我们同样可以实现动态渲染页面的抓取。 1. 功能介绍 利用 Splash 我们可以实现如下功能: 阅读全文
posted @ 2021-03-30 20:35 学霸君主 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 7.1 Selenium 的使用 Selenium 是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些 JavaScript 动态渲染的页面来说,此种抓取方式非常有效。本节中,就让我们来感受一下它的强大之 阅读全文
posted @ 2021-03-30 20:31 学霸君主 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 第七章 动态渲染页面抓取 在前一章中,我们了解了 Ajax 的分析和抓取方式,这其实也是 JavaScript 动态渲染的页面的一种情形,通过直接分析 Ajax,我们仍然可以借助 requests 或 urllib 来实现数据爬取。 不过 JavaScript 动态渲染的页面不止 Ajax 这一种。 阅读全文
posted @ 2021-03-30 20:28 学霸君主 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 8.1 图形验证码的识别 我们首先识别最简单的一种验证码,即图形验证码。这种验证码最早出现,现在也很常见,一般由 4 位字母或者数字组成。例如,中国知网的注册页面有类似的验证码,链接为:http://my.cnki.net/elibregister/commonRegister.aspx,页面如图 阅读全文
posted @ 2021-03-30 20:25 学霸君主 阅读(308) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 24 下一页