Hello World

摘要: 一.背景 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,采用串行的方式执行,只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:串行并不意味着低效,如果串行的都是纯计算的任务,那么cpu的利用率仍然会很高,之所以爬虫程序的串行低效,是因为爬虫程序 阅读全文
posted @ 2017-10-31 14:42 nayike 阅读(696) 评论(0) 推荐(0) 编辑
摘要: scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 分布式爬虫优点: 充分利用多机器的宽带加速爬 阅读全文
posted @ 2017-10-31 11:30 nayike 阅读(152) 评论(0) 推荐(0) 编辑

Hello