摘要:
基于终端指令的持久化存储 基于管道的持久化存储 基于mysql的管道存储 基于redis的管道存储 基于终端指令的持久化存储 - 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作; - 执行输出指定格式进行存 阅读全文
摘要:
日志等级 请求传参 提高scrapy的爬取效率 日志等级 - 日志信息: 使用命令:scrapy crawl 爬虫文件 运行程序时,在终端输出的就是日志信息; - 日志信息的种类: - ERROR:一般错误; - WARNING:警告; - INFO:一般的信息; - DEBUG: 调试信息; - 阅读全文
摘要:
五大核心组件工作流程 post请求发送 递归爬取 五大核心组件工作流程 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优 阅读全文
摘要:
工作队列(任务队列) 群发 路由 使用topic exchange RPC 简介 RabbitMQ:接受消息再传递消息,可以视为一个“邮局”。发送者和接受者通过队列来进行交互,队列的大小可以视为无限的,多个发送者可以发生给一个队列,多个接收者也可以从一个队列中接受消息。 code rabbitmq使 阅读全文
摘要:
RabbitMQ 什么叫消息队列 消息(Message)是指在应用间传送的数据。消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。 消息队列(Message Queue)是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保消息的可靠传递。消息发布者只管把消息发布到 阅读全文