爬虫含义:  一段自动抓取网页数据的程序

爬虫价值:  获取网页数据,为我所用

爬虫架构:

 

 

爬虫动态运行流行:

 

 

 

url管理器: 看该网页是否爬过.....(防止重复和循环)

url管理器实现方式:

            ①内存(Python自带的set(),有防止重复的url),,,,,适合小型网站

            ②关系数据库(mysql,urls(地址,""))  ,,,,,,,,,,适合永久保存

            ③缓存数据库( redis ,set()),,,,,,,,,,,,,适合大网站

 

网站下载器: utllib2,requeses(适合大网站 )

 

 

网站下载器 实现方法  : 3种

 

 

解析器: Python几种网页解析器

         正则-------模糊匹配

         beautiful soup-----------结构化解析

         html.parser------------

         lxml--------------------

 

 

 

结构化解析: