2020 年 5月 21 日随笔档案 - 秋华

2020年5月21日

摘要：偏差（Deviation）有序条形图（Ordered Bar Chart）有序条形图有效地传达了项目的排名顺序。但是，在图表上方添加度量标准的值，用户可以从图表本身获取精确信息。 https://datawhalechina.github.io/pms50/#/chapter15/chap 阅读全文

posted @ 2020-05-21 22:48 秋华阅读(987) 评论(0) 推荐(0) 编辑

scrapy 源码解析（五）：启动流程源码分析(五) Scraper刮取器

摘要： Scraper刮取器对ExecutionEngine执行引擎篇出现的Scraper进行展开。Scraper的主要作用是对spider中间件进行管理，通过中间件完成请求、响应、数据分析等工作。 Scraper对象 scrapy/core/scraper.py#Scraper: class Scrap 阅读全文

posted @ 2020-05-21 19:27 秋华阅读(864) 评论(0) 推荐(0) 编辑

scrapy 源码解析（四）：启动流程源码分析(四) Scheduler调度器

摘要： Scheduler调度器对ExecutionEngine执行引擎篇出现的Scheduler进行展开。Scheduler用于控制Request对象的存储和获取，并提供了过滤重复Request的功能。 Scheduler对象 scheduler对象是通过类的from_cralwer方法生成的。scra 阅读全文

posted @ 2020-05-21 17:45 秋华阅读(390) 评论(0) 推荐(0) 编辑

scrapy 源码解析（三）：启动流程源码分析(三) ExecutionEngine执行引擎

摘要： ExecutionEngine执行引擎上一篇分析了CrawlerProcess和Crawler对象的建立过程，在最终调用CrawlerProcess.start()之前，会首先建立ExecutionEngine执行引擎，执行其open_spider和start方法。 ExecutionEngine 阅读全文

posted @ 2020-05-21 14:56 秋华阅读(569) 评论(0) 推荐(0) 编辑

scrapy 源码解析（二）：启动流程源码分析(二) CrawlerProcess主进程

摘要： CrawlerProcess主进程它控制了twisted的reactor，也就是整个事件循环。它负责配置reactor并启动事件循环，最后在所有爬取结束后停止reactor。另外还控制了一些信号操作，使用户可以手动终止爬取任务。此类在scrapy/crawler.py中定义，此模块有三个类：Cr 阅读全文

posted @ 2020-05-21 14:46 秋华阅读(1431) 评论(0) 推荐(0) 编辑

scrapy 源码解析（一）：启动流程源码分析(一)命令行启动

摘要：前言虽然爬虫的入门级编写并不难，但要让爬虫真正稳定可靠的运行起来，真不是一件容易的事。首先，要用到scrapy，就必须要读懂scrapy这个爬虫框架，如果连这个框架的执行逻辑都搞不懂，那么爬虫也很难写好。 1.命令行启动这里先不谈使用了各种框架的复杂情况，比如scrapyd服务、redis分布式阅读全文

posted @ 2020-05-21 14:07 秋华阅读(895) 评论(0) 推荐(0) 编辑

秋华

公告