摘要: 分布式 概念: 需要搭建一个分布式的机群, 然后在每一台电脑中执行同一组程序, 让其对某一网站的数据进行联合分布爬取. 原生的scrapy框架不能实现分布式的原因 调度器不能被共享, 管道也不能被共享. scrapy + scrapy-redis 可以实现分布式 scrapy-redis组件的作用: 阅读全文
posted @ 2020-09-25 11:23 凯旋.Lau 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 全站爬取1 基于管道的持久化存储 数据解析(爬虫类) 将解析的数据封装到item类型的对象中(爬虫类) 将item提交给管道, yield item(爬虫类) 在管道类的process_item中接手收item对象, 并进行任意形式的持久化存储操作(管道类) 在配置文件中开启管道 细节: 将爬取到的 阅读全文
posted @ 2020-09-25 11:22 凯旋.Lau 阅读(674) 评论(0) 推荐(0) 编辑
摘要: scrapy是一个为了爬取网站数据, 提取结构性数据而编写的应用框架, 它是基于Twisted框架开发而来, 而Twisted框架是事件驱动的, 比较适合异步代码. 对会阻塞线程的操作, 包括访问数据库、文件或者web, 或者产生新的进程并需要处理新进程的输出、执行系统层次操作的代码, Twiste 阅读全文
posted @ 2020-09-25 11:20 凯旋.Lau 阅读(350) 评论(0) 推荐(0) 编辑