简单爬虫架构

运行流程:

 

URL管理器:

    管理待抓取的URL集合和已抓取的URL集合:防止重复抓取、防止循环抓取。

 

posted @ 2018-06-23 23:19  kangjie  阅读(242)  评论(0编辑  收藏  举报