爬虫含义: 一段自动抓取网页数据的程序
爬虫价值: 获取网页数据,为我所用
爬虫架构:
爬虫动态运行流行:
url管理器: 看该网页是否爬过.....(防止重复和循环)
url管理器实现方式:
①内存(Python自带的set(),有防止重复的url),,,,,适合小型网站
②关系数据库(mysql,urls(地址,"")) ,,,,,,,,,,适合永久保存
③缓存数据库( redis ,set()),,,,,,,,,,,,,适合大网站
网站下载器: utllib2,requeses(适合大网站 )
网站下载器 实现方法 : 3种
解析器: Python几种网页解析器
正则-------模糊匹配
beautiful soup-----------结构化解析
html.parser------------
lxml--------------------
结构化解析: