简单爬虫架构解析

整体架构

主函数

一、 URL管理器

管理即将爬取的URL和已经爬取的URL

URL管理器

二、 网页下载器

用于下载网页

三种urllib实现网页下载,含cookie模拟登陆

三、 网页解析器

用于解析网页,获得有价值数据或者新的待爬取URL填充URL管理器

使用bs4的网页解析器

四、文件输出

文件输出

posted @ 2017-08-11 10:17  岑忠满  阅读(514)  评论(0编辑  收藏  举报