1 2 3 4
上一页 1 2 3 4 5 6 7 8 9 10 ··· 24 下一页
摘要: 12.2 pyspider 的基本使用 本节用一个实例来讲解 pyspider 的基本用法。 1. 本节目标 我们要爬取的目标是去哪儿网的旅游攻略,链接为 http://travel.qunar.com/travelbook/list.htm,我们要将所有攻略的作者、标题、出发日期、人均费用、攻略正 阅读全文
posted @ 2021-03-29 23:06 学霸君主 阅读(64) 评论(0) 推荐(0) 编辑
摘要: 12.1 pyspider 框架介绍 pyspider 是由国人 binux 编写的强大的网络爬虫系统,其 GitHub 地址为 https://github.com/binux/pyspider,官方文档地址为 http://docs.pyspider.org/。 pyspider 带有强大的 W 阅读全文
posted @ 2021-03-29 23:04 学霸君主 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 第十二章 pyspider 框架的使用 前文基本上把爬虫的流程实现一遍,将不同的功能定义成不同的方法,甚至抽象出模块的概念。如微信公众号爬虫,我们已经有了爬虫框架的雏形,如调度器、队列、请求对象等,但是它的架构和模块还是太简单,远远达不到一个框架的要求。如果我们将各个组件独立出来,定义成不同的模块, 阅读全文
posted @ 2021-03-29 23:02 学霸君主 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 11.6 Appium+mitmdump 爬取京东商品 在前文中,我们曾经用 Charles 分析过京东商品的评论数据,但是可以发现其参数相当复杂,Form 表单有很多加密参数。如果我们只用 Charles 探测到这个接口链接和参数,还是无法直接构造请求的参数,构造的过程涉及一些加密算法,也就无法直 阅读全文
posted @ 2021-03-29 22:41 学霸君主 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 13.3 Selector 的用法 我们之前介绍了利用 Beautiful Soup、pyquery 以及正则表达式来提取网页数据,这确实非常方便。而 Scrapy 还提供了自己的数据提取方法,即 Selector(选择器)。Selector 是基于 lxml 来构建的,支持 XPath 选择器、C 阅读全文
posted @ 2021-03-29 22:40 学霸君主 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 13.2 Scrapy 入门 接下来介绍一个简单的项目,完成一遍 Scrapy 抓取流程。通过这个过程,我们可以对 Scrapy 的基本用法和原理有大体了解。 1. 本节目标 本节要完成的任务如下。 创建一个 Scrapy 项目。 创建一个 Spider 来抓取站点和处理数据。 通过命令行将抓取的内 阅读全文
posted @ 2021-03-29 22:39 学霸君主 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 13.1 Scrapy 框架介绍 Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 1. 架构介绍 首先我们来看下 Scrapy 框架 阅读全文
posted @ 2021-03-29 22:20 学霸君主 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 第十三章 Scrapy 框架的使用 在上一章我们了解了 pyspider 框架的用法,我们可以利用它快速完成爬虫的编写。不过 pyspider 框架也有一些缺点,比如可配置化程度不高,异常处理能力有限等,它对于一些反爬程度非常强的网站的爬取显得力不从心。所以本章我们再介绍一个爬虫框架 Scrapy。 阅读全文
posted @ 2021-03-29 22:18 学霸君主 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 13.7 Item Pipeline 的用法 Item Pipeline 是项目管道。在前面我们已经了解了 Item Pipeline 的基本用法,本节我们再作详细了解它的用法。 首先我们看看 Item Pipeline 在 Scrapy 中的架构,如图 13-1 所示。 图中的最左侧即为 Item 阅读全文
posted @ 2021-03-29 22:17 学霸君主 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 13.5 Downloader Middleware 的用法 Downloader Middleware 即下载中间件,它是处于 Scrapy 的 Request 和 Response 之间的处理模块。我们首先来看看它的架构,如图 13-1 所示。 Scheduler 从队列中拿出一个 Reques 阅读全文
posted @ 2021-03-29 22:16 学霸君主 阅读(183) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 24 下一页