摘要: 偏差 (Deviation) 有序条形图 (Ordered Bar Chart) 有序条形图有效地传达了项目的排名顺序。 但是,在图表上方添加度量标准的值,用户可以从图表本身获取精确信息。 https://datawhalechina.github.io/pms50/#/chapter15/chap 阅读全文
posted @ 2020-05-21 22:48 秋华 阅读(987) 评论(0) 推荐(0) 编辑
摘要: Scraper刮取器 对ExecutionEngine执行引擎篇出现的Scraper进行展开。Scraper的主要作用是对spider中间件进行管理,通过中间件完成请求、响应、数据分析等工作。 Scraper对象 scrapy/core/scraper.py#Scraper: class Scrap 阅读全文
posted @ 2020-05-21 19:27 秋华 阅读(864) 评论(0) 推荐(0) 编辑
摘要: Scheduler调度器 对ExecutionEngine执行引擎篇出现的Scheduler进行展开。Scheduler用于控制Request对象的存储和获取,并提供了过滤重复Request的功能。 Scheduler对象 scheduler对象是通过类的from_cralwer方法生成的。scra 阅读全文
posted @ 2020-05-21 17:45 秋华 阅读(390) 评论(0) 推荐(0) 编辑
摘要: ExecutionEngine执行引擎 上一篇分析了CrawlerProcess和Crawler对象的建立过程,在最终调用CrawlerProcess.start()之前,会首先建立ExecutionEngine执行引擎,执行其open_spider和start方法。 ExecutionEngine 阅读全文
posted @ 2020-05-21 14:56 秋华 阅读(569) 评论(0) 推荐(0) 编辑
摘要: CrawlerProcess主进程 它控制了twisted的reactor,也就是整个事件循环。它负责配置reactor并启动事件循环,最后在所有爬取结束后停止reactor。另外还控制了一些信号操作,使用户可以手动终止爬取任务。 此类在scrapy/crawler.py中定义,此模块有三个类:Cr 阅读全文
posted @ 2020-05-21 14:46 秋华 阅读(1431) 评论(0) 推荐(0) 编辑
摘要: 前言 虽然爬虫的入门级编写并不难,但要让爬虫真正稳定可靠的运行起来,真不是一件容易的事。首先,要用到scrapy,就必须要读懂scrapy这个爬虫框架,如果连这个框架的执行逻辑都搞不懂,那么爬虫也很难写好。 1.命令行启动 这里先不谈使用了各种框架的复杂情况,比如scrapyd服务、redis分布式 阅读全文
posted @ 2020-05-21 14:07 秋华 阅读(895) 评论(0) 推荐(0) 编辑