零--初识爬虫

两年前,我看了一篇文章,里面说:正常人想看什么电影都是打开百度,搜索电影的名字、标签, 而程序员看电影都是用爬虫来爬下来看的。那个时候,刚上大一,还在为用c++在黑框框里打印出helloworld,每天兴奋的饭都多吃一碗的我,突然发现了新大陆--程序员原来看个电影都这么高级的吗。不过这爬虫是个啥?还是正常人的我打开了百度,于是善良的度娘很爽快的告诉了我爬虫是一段自动抓取网上信息的程序,顺带的度娘还告诉我搜索引擎也是爬虫。年少无知的我毅然决然的决定闭关养虫,渴望着有朝一日能够成为用爬虫下电影的真正的程序员。

爬虫大致可以分为两部分:

  1. 数据抓取部分,将网页中关心的内容下载下来(对于网页爬虫来说是这样),
  2. 保存数据部分,将拿到的数据进行筛选过滤,之后将自己关心的数据保存起来

通常,写出一个有用的网页爬虫需要经历以下几步:

  1. 分析目标网站的结构,分析页面元素关系。这一步主要是为了确定如何从页面众多的元素中抽取出自己真正关心的元素。另外,有些站点经过分析后,可以找到数据接口,这样之后可以直接调用接口来获取数据。
  2. 编写网页下载器,这一步需要根据上一步的分析结果来确定下载的顺序、方式,以及下载过程中的一些注意点, 主要是一些反反爬应对措施。
  3. 将下载的数据作进一步筛选,仅将自己关心的部分保存下来。

阅读本教程你需要具有:

  • 网络基础知识,了解http协议
  • web前端基础知识,包括js,html5,能够简单使用chrome浏览器开发者工具等,最好还有一些web后端知识
  • python基础知识,至少能写出helloworld。

在开始之前,你需要准备:

  • python3开发环境,本系列教程均使用python3.7.2。
  • 一个自己喜欢的编辑器,本系列教程均使用vscode
  • chrome浏览器

接下来我将会分别从这三步开始,通过一些实例来讲解一个爬虫的产生过程:

一. 入门篇

  1. 使用python从ZOL下载一张壁纸
  2. 文本提取——正则表达式

二. 进阶篇

三. 延伸篇

posted @ 2019-03-13 10:00  不想取名字所以就随便写了  阅读(209)  评论(0编辑  收藏  举报