上一页 1 ··· 350 351 352 353 354 355 356 357 358 ··· 384 下一页
摘要: Scraper刮取器 对ExecutionEngine执行引擎篇出现的Scraper进行展开。Scraper的主要作用是对spider中间件进行管理,通过中间件完成请求、响应、数据分析等工作。 Scraper对象 scrapy/core/scraper.py#Scraper: class Scrap 阅读全文
posted @ 2020-05-21 19:27 秋华 阅读(864) 评论(0) 推荐(0) 编辑
摘要: Scheduler调度器 对ExecutionEngine执行引擎篇出现的Scheduler进行展开。Scheduler用于控制Request对象的存储和获取,并提供了过滤重复Request的功能。 Scheduler对象 scheduler对象是通过类的from_cralwer方法生成的。scra 阅读全文
posted @ 2020-05-21 17:45 秋华 阅读(390) 评论(0) 推荐(0) 编辑
摘要: ExecutionEngine执行引擎 上一篇分析了CrawlerProcess和Crawler对象的建立过程,在最终调用CrawlerProcess.start()之前,会首先建立ExecutionEngine执行引擎,执行其open_spider和start方法。 ExecutionEngine 阅读全文
posted @ 2020-05-21 14:56 秋华 阅读(569) 评论(0) 推荐(0) 编辑
摘要: CrawlerProcess主进程 它控制了twisted的reactor,也就是整个事件循环。它负责配置reactor并启动事件循环,最后在所有爬取结束后停止reactor。另外还控制了一些信号操作,使用户可以手动终止爬取任务。 此类在scrapy/crawler.py中定义,此模块有三个类:Cr 阅读全文
posted @ 2020-05-21 14:46 秋华 阅读(1431) 评论(0) 推荐(0) 编辑
摘要: 前言 虽然爬虫的入门级编写并不难,但要让爬虫真正稳定可靠的运行起来,真不是一件容易的事。首先,要用到scrapy,就必须要读懂scrapy这个爬虫框架,如果连这个框架的执行逻辑都搞不懂,那么爬虫也很难写好。 1.命令行启动 这里先不谈使用了各种框架的复杂情况,比如scrapyd服务、redis分布式 阅读全文
posted @ 2020-05-21 14:07 秋华 阅读(895) 评论(0) 推荐(0) 编辑
摘要: 偏差 (Deviation) 面积图 (Area Chart) 通过对轴和线之间的区域进行着色,面积图不仅强调峰和谷,而且还强调高点和低点的持续时间。 高点持续时间越长,线下面积越大。 https://datawhalechina.github.io/pms50/#/chapter14/chapte 阅读全文
posted @ 2020-05-19 22:17 秋华 阅读(2791) 评论(0) 推荐(0) 编辑
摘要: 偏差 (Deviation) 带标记的发散型棒棒糖图 (Diverging Lollipop Chart with Markers) 带标记的棒棒糖图通过强调您想要引起注意的任何重要数据点并在图表中适当地给出推理,提供了一种对差异进行可视化的灵活方式。 https://datawhalechina. 阅读全文
posted @ 2020-05-18 22:42 秋华 阅读(1000) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2020-05-17 16:59 秋华 阅读(231) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2020-05-17 16:45 秋华 阅读(281) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2020-05-17 16:27 秋华 阅读(294) 评论(0) 推荐(0) 编辑
上一页 1 ··· 350 351 352 353 354 355 356 357 358 ··· 384 下一页