爬虫运行流程

爬虫含义: 一段自动抓取网页数据的程序

爬虫价值: 获取网页数据,为我所用

爬虫架构:

爬虫动态运行流行:

url管理器: 看该网页是否爬过.....(防止重复和循环)

url管理器实现方式:

①内存(Python自带的set(),有防止重复的url),,,,,适合小型网站

②关系数据库(mysql,urls(地址,"")) ,,,,,,,,,,适合永久保存

③缓存数据库( redis ,set()),,,,,,,,,,,,,适合大网站

网站下载器: utllib2,requeses(适合大网站 )

网站下载器实现方法 : 3种

解析器: Python几种网页解析器

正则-------模糊匹配

beautiful soup-----------结构化解析

html.parser------------

lxml--------------------

结构化解析:

posted on 2016-07-18 14:36 zengyanlove 阅读(237) 评论(0) 收藏举报

刷新页面返回顶部

导航