爬虫系统架构

新闻爬虫系统架构:

  • Zookeeper master:发布爬取任务 监控爬虫子节点存活性 宕机时重启
  • Kafka:分布式消费队列
  • Ip-pool:动态更换Ip 反防爬
  • Extraction service:抽取规则服务器

 

 

 

 

 

disruptor:lock free用于快速消费任务

 

 

posted @ 2019-02-04 13:13  okay4321  阅读(541)  评论(0编辑  收藏  举报