摘要: 一:MySQL存储引擎简介 MySQL有多种存储引擎,每种存储引擎有各自的优缺点,大家可以择优选择使用:MyISAM、InnoDB、MERGE、MEMORY(HEAP)、BDB(BerkeleyDB)、EXAMPLE、FEDERATED、ARCHIVE、CSV、BLACKHOLE。 MySQL支持数 阅读全文
posted @ 2019-01-10 21:07 Hear7 阅读(322) 评论(0) 推荐(0) 编辑
摘要: scrapy-redis组件安装 分布式实现流程 scrapy-redis组件安装 - 下载scrapy-redis组件:pip install scrapy-redis - 更改redis配置文件: 注释该行:bind 127.0.0.1,表示可以让其他ip访问redis 将yes该为no:pro 阅读全文
posted @ 2019-01-10 19:52 Hear7 阅读(219) 评论(0) 推荐(0) 编辑
摘要: UA池 代理池 selenium在Scrapy中的应用 UA池 - 下载中间件: - 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。 - 作用: - 引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理。比如设置请求的 User 阅读全文
posted @ 2019-01-10 19:51 Hear7 阅读(638) 评论(0) 推荐(0) 编辑
摘要: CrawlSpider简介 CrawlSpider使用 CrawlSpider简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外, 还派生除了其自己独有的更加强大的特性和功能。 其中最显著的功能就是”LinkExtractors链接提取器“。 Spider 阅读全文
posted @ 2019-01-10 19:48 Hear7 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 基于终端指令的持久化存储 基于管道的持久化存储 基于mysql的管道存储 基于redis的管道存储 基于终端指令的持久化存储 - 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作; - 执行输出指定格式进行存 阅读全文
posted @ 2019-01-10 19:47 Hear7 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 日志等级 请求传参 提高scrapy的爬取效率 日志等级 - 日志信息: 使用命令:scrapy crawl 爬虫文件 运行程序时,在终端输出的就是日志信息; - 日志信息的种类: - ERROR:一般错误; - WARNING:警告; - INFO:一般的信息; - DEBUG: 调试信息; - 阅读全文
posted @ 2019-01-10 19:46 Hear7 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 五大核心组件工作流程 post请求发送 递归爬取 五大核心组件工作流程 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优 阅读全文
posted @ 2019-01-10 19:39 Hear7 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 工作队列(任务队列) 群发 路由 使用topic exchange RPC 简介 RabbitMQ:接受消息再传递消息,可以视为一个“邮局”。发送者和接受者通过队列来进行交互,队列的大小可以视为无限的,多个发送者可以发生给一个队列,多个接收者也可以从一个队列中接受消息。 code rabbitmq使 阅读全文
posted @ 2019-01-10 10:03 Hear7 阅读(118) 评论(0) 推荐(0) 编辑
摘要: RabbitMQ 什么叫消息队列 消息(Message)是指在应用间传送的数据。消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。 消息队列(Message Queue)是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保消息的可靠传递。消息发布者只管把消息发布到 阅读全文
posted @ 2019-01-10 10:01 Hear7 阅读(124) 评论(0) 推荐(0) 编辑