2017 年 10月 31 日随笔档案 - nayike

2017年10月31日

摘要：一.背景爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，采用串行的方式执行，只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：串行并不意味着低效，如果串行的都是纯计算的任务，那么cpu的利用率仍然会很高，之所以爬虫程序的串行低效，是因为爬虫程序阅读全文

posted @ 2017-10-31 14:42 nayike 阅读(696) 评论(0) 推荐(0) 编辑

scrapy-redis

摘要： scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler - 调度器 dupefilter - URL去重规则（被调度器使用） pipeline - 数据持久化分布式爬虫优点：充分利用多机器的宽带加速爬阅读全文

posted @ 2017-10-31 11:30 nayike 阅读(152) 评论(0) 推荐(0) 编辑

Hello World

nayike

公告

Hello