Python静态网页爬虫相关知识

想要开发一个简单的Python爬虫案例，并在Python3以上的环境下运行，那么需要掌握哪些知识才能完成一个简单的Python爬虫呢？

爬虫的架构实现

爬虫包括调度器，管理器，解析器，下载器和输出器。调度器可以理解为主函数的入口作为整个爬虫的头部，管理器实现包括对URL是否重复进行判断，将已经爬到的URL加入到列表防止重复爬取。解析器则是对网页内容进行解析，解析出新的URL和网页内容。下载器则是下载解析器解析出的URL。输出器则是顾名思义。

1.1 调度器

我的理解为类似主函数的入口，可以启动爬虫，停止爬虫和监视爬虫的运行情况。

1.2 管理器

管理器主要对url进行管理，包括已经爬取的URL和待爬取的URL，分类并加入两个set中，为什么采用set这个数据结构？后面会做介绍。

1.3下载器

下载器接受来自URL管理器传入的URL将其转换成一个字符串，到此完成下载器的功能。

1.4解析器

功能包括解析出有价值的数据，这里要了解基本的HTML的知识才能对指定数据进行爬取。网页中包括很多URL，解析出之后将加入管理器进行下一次的循环工作。

1.5输出器

略

后续将更新其他内容，希望大家能一起学习Python web开发。

发表于 2016-04-24 23:59 空酷狗阅读(353) 评论(0) 收藏举报

刷新页面返回顶部

公告