爬虫系列(一) 网络爬虫简介

写在前面的话 ：最近博主在学习网络爬虫的相关技术（基于 Python 语言），作为一个学习的总结，打算用博客记录下来，也希望和大家分享一下自己在学习过程中的点点滴滴，话不多说，让我们马上开始吧

一、爬虫基本简介

什么是网络爬虫，这里先引用一下百度百科上的解析：

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本

说起网络爬虫，人们常常会用这样一个比喻：如果把互联网比喻成一张网，那么网络爬虫就可以认为是一个在网上爬来爬去的小虫子，它通过网页的链接地址来寻找网页，通过特定的搜索算法来确定路线，通常从网站的某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有网页都抓取完为止

二、爬虫基本原理

下面的图片很好的展现了一般网络爬虫的基本过程，下面让我们来详细解释一下这张图片的含义吧

爬虫基本原理

1、发送请求

爬虫的第一个步骤就是对起始 URL 发送请求，以获取其返回的响应

值得注意的是，发送请求实质上是指发送请求报文的过程

请求报文 包括以下四个方面：请求行、请求头、空行和请求体

请求报文

但是，往往在使用 Python 相关的网络请求库发送请求时，只需关注某些特殊的部分即可，而非完整的请求报文，下面我们将以粗体的形式标识出我们需要特别关注的部分

（1）请求行

请求行由请求方法、请求 URL 和 HTTP 协议版本 3 个字段组成，字段间使用空格分隔

① 请求方法：请求方法是指对目标资源的操作方式，常见的有 GET 方法和 POST 方法

GET：从指定的资源请求数据，查询字符串包含在 URL 中发送
POST：向指定的资源提交要被处理的数据，查询字符串包含在请求体中发送

② 请求 URL：请求 URL 是指目标网站的统一资源定位符 (Uniform Resource Locator，URL)

③ HTTP 协议版本：HTTP 协议是指通信双方在通信流程和内容格式上共同遵守的标准

（2）请求头

请求头 被认为是请求的配置信息，以下列举出常用的请求头信息（持续补充中）

User-Agent：包含发出请求的用户的信息，设置 User-Agent 常用于处理反爬虫
Cookie：包含先前请求的内容，设置 Cookie 常用于模拟登陆
Referer：指示请求的来源，用于可以防止链盗以及恶意请求

（3）空行

空行标志着请求头的结束

（4）请求体

请求体 根据不同的请求方法包含不同的内容

若请求方法为 GET，则此项为空；若请求方法为 POST，则此项为待提交的数据（即表单数据）

2、获取响应

爬虫的第二个步骤就是获取特定 URL 返回的响应，以提取包含在其中的数据

同样的，响应其实是指完整响应报文，它包括四个部分：响应行、响应头、空行和响应体

响应报文

（1）响应行

响应行由 HTTP 协议版本、状态码及其描述组成

① HTTP 协议版本：HTTP 协议是指通信双方在通信流程和内容格式上共同遵守的标准

② 状态码及其描述

100~199：信息，服务器收到请求，需要请求者继续执行操作
200~299：成功，操作被成功接收并处理
300~399：重定向，需要进一步的操作以完成请求
400~499：客户端错误，请求包含语法错误或无法完成请求
500~599：服务器错误，服务器在处理请求的过程中发生错误

（2）响应头

响应头 用于描述服务器和数据的基本信息，以下列举出常用的响应头信息（持续补充中）

Set-Cookie：设置浏览器 Cookie，以后当浏览器访问符合条件的 URL 时，会自动带上该 Cooike

（3）空行

空行标志着响应头的结束

（4）响应体

响应体 就是网站返回的数据，在下一个步骤中我们需要对其进行分析处理

3、解析网页

解析网页实质上需要完成两件事情，一是提取网页上的链接，二是提取网页上的资源

（1）提取链接

提取链接实质上是指获取存在于待解析网页上的其他网页的链接

网络爬虫需要给这些链接发送请求，如此循环，直至把特定网站全部抓取完毕为止

（2）提取资源

提取数据则是爬虫的目的，常见的数据类型如下：

文本：HTML，JSON 等
图片：JPG，GIF，PNG 等
视频：MPEG-1、MPEG-2 和 MPEG4，AVI 等

最终，我们可以对所获得的资源作进一步的处理，从而提取出有价值的信息

【爬虫系列相关文章】

posted @ 2018-08-09 17:35 半虹阅读(5016) 评论(0) 编辑收藏举报

刷新页面返回顶部

半虹小站

愿你我都能成为闪闪发光的人。公众号「半虹小站」

爬虫系列(一) 网络爬虫简介

一、爬虫基本简介

二、爬虫基本原理

1、发送请求

（1）请求行

（2）请求头

（3）空行

（4）请求体

2、获取响应

（1）响应行

（2）响应头

（3）空行

（4）响应体

3、解析网页

（1）提取链接

（2）提取资源

公告