2018 年 12月 24 日随笔档案 - 心灵蚂蚁

2018年12月24日

摘要： Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下 Scrapy主要包括了以下组件：引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一阅读全文

posted @ 2018-12-24 21:58 心灵蚂蚁阅读(231) 评论(0) 推荐(0) 编辑

Scrapy框架的八个扩展

摘要：一、proxies代理首先需要在环境变量中设置方式一：使用默认缺点：原生代理是把代理放在python环境变量里面，也就是要依赖于python环境变量，要用的时候然后再去变量里面搜索，一个个分割字符进行匹配，效率低，low。方式二：使用自定义下载中间件 def to_bytes(text, e 阅读全文

posted @ 2018-12-24 21:11 心灵蚂蚁阅读(833) 评论(0) 推荐(0) 编辑

浅析Scrapy框架运行的基本流程

摘要：本篇博客将从Twisted的下载任务基本流程开始介绍，然后再一步步过渡到Scrapy框架的基本运行流程，其中还会需要我们自定义一个Low版的Scrapy框架。但内容不会涉及太多具体细节，而且需要注意的是示例代码的运行过程不会Scrapy一模一样，但不影响你对整体的把握。希望可以帮助那些刚入门爬虫或者阅读全文

posted @ 2018-12-24 20:30 心灵蚂蚁阅读(2083) 评论(0) 推荐(0) 编辑

心灵蚂蚁

Let life be beautiful like summer flowers and death like autumn leaves

公告