摘要:
看一下效果图: InfulxDb 官方网站:https://portal.influxdata.com/downloads/ docker 安装influxdb数据库 chronograf可视化工具(非必要,只是可以web访问,类似PHPMySQL) 启动influxdb,其中 v参数表示将dock 阅读全文
摘要:
效果图: 废话 如何知道你写的爬虫有没有正常运行,运行了多长时间,请求了多少个网页,抓到了多少条数据呢?官方其实就提供了一个字典就包含一些抓取的相关信息:crawler.stats.get_stats(),crawler是scrapy中的一个组件。你可以在很多组件中访问他,比如包含from_craw 阅读全文
摘要:
安装 splash是一个类似于selenium的自动化浏览器,不过它与selenium还是有很大区别的:比如splash是异步的,splash暴露httpAPI来自动化操作。 安装很简单,需要先安装docker,然后拉取镜像: 启动splash: 另外,还可以把容器内的目录映射到本地,这样保证了数据 阅读全文
摘要:
前言 scrapy有很多的内置命令,但是有时候我们会想要自定义一些命令,因为写脚本不如敲个命令来的有逼格,也更方便。 不过scrapy官网并没有对自定义命令的文档,有的只是一句话:您也可以使用该COMMANDS_MODULE设置添加自定义项目命令 。有关如何实现命令的示例,请参见scrapy / c 阅读全文
摘要:
scrapy提供了很多中间组件可以让我们更加自定义想要的效果,比如项目管道(item pipeline),下载中间件(downloader middleware),蜘蛛中间件(spider middleware)等。通过更改或者添加的方式我们可以实现很多的功能。这种中间组件就像钩子一样,在完成结果之 阅读全文
摘要:
scrapy组件 首先我们看下scrapy官网提供的新结构图,乍一看这画的是啥啊,这需要你慢慢的理解其原理就很容易看懂了,这些都是一个通用爬虫框架该具有的一些基本组件。上一篇博客说了项目管道(也就是图中的ITEM PIPELINES),可以看到中间的引擎(ENGINE)将item传递给了项目管道,也 阅读全文