Python 写网络爬虫思路分析

首先从程序入口开始分析，在程序入口处传入一个待爬取的网址，

使用下载器Html_downloader类下载该地址的内容，使用解释器
parser分析内容,利用BeautifulSoup包抓取想要爬取的内容和地址，
把地址增加到Url_Manager管理器中，同时把抓取的内容收集起
来。这里一次抓取完成，检测Url_Manager管理器中是否还有新
的未爬取的网址，如果有则开始下次爬取。直至爬取完毕后，把
收集到的信息以一定的格式存储到一个文件中，至此整个网页爬
虫过程结束。
就数据结构而言，网页爬虫采用了图结构的广度优先搜索遍
历的模式完成爬取工作。

posted @ 2016-01-06 10:13 vspiders 阅读(254) 评论(0) 收藏举报

刷新页面返回顶部

vspiders

静下心来，关注安全。

Python 写网络爬虫思路分析

公告