【BOOK】爬虫基础

一、 HTTP原理

  1、URL--统一资源定位符,网页链接‘’

  2、超文本--网页源代码HTML

  3、HTTP--超文本传输协议 ——> HTTPS【HTTP+SSL加密(安全性提高)】

         HTTP请求—响应

  4、HTTP请求

  ※请求方法(Request Method)

              GET

              POST:提交表单,上传文件

  ※请求的网址(Request URL)

  ※请求头(Request Headers)【爬虫时需要修改】

              Cookie:可保存登录状态

    Referer

    User-Agent:爬虫时可以伪装陈浏览器

    Content-Type:对于不同的POST请求需要进行设置

           

 

 

 

   ※ 请求体(Request Body)

              POST请求时提交的表单数据

  5、HTTP响应

  ※ 响应状态码(Response Status Code)

    200—成功

  ※响应头(Response Headers)

  ※ 响应体(Response Body)【需要进行解析】

 

二、 网页基础

  1、 HTML + CSS +LJavaScript

  2、 HTML DOM树

  3、 CSS选择器

 

三、 爬虫基本原理

  1、 获取网页—获取HTML源代码

    提取信息

    保存数据

    自动化程序

  2、 JavaScript渲染页面

   Requests、urllib库只能得到HTML代码,无法加载JavaScript文件

   Selenium、Splash库实现模拟JavaScript渲染

   或者分析后台Ajax接口

  3、 会话和Cookies—保存用户登录状态

  4、 代理服务器

posted @ 2020-02-27 16:51  kuluma  阅读(145)  评论(0编辑  收藏  举报