简单爬虫架构解析
整体架构
主函数
一、 URL管理器
管理即将爬取的URL和已经爬取的URL
URL管理器
二、 网页下载器
用于下载网页
三种urllib实现网页下载,含cookie模拟登陆
三、 网页解析器
用于解析网页,获得有价值数据或者新的待爬取URL填充URL管理器
使用bs4的网页解析器
四、文件输出
文件输出
岑忠满的博客新站点
http://cenzm.xyz
管理即将爬取的URL和已经爬取的URL
用于下载网页
用于解析网页,获得有价值数据或者新的待爬取URL填充URL管理器