【BOOK】爬虫基础

一、 HTTP原理

　　1、URL--统一资源定位符，网页链接‘’

　　2、超文本--网页源代码HTML

　　3、HTTP--超文本传输协议 ——> HTTPS【HTTP+SSL加密(安全性提高)】

　　 HTTP请求—响应

　　4、HTTP请求

　　※请求方法(Request Method)

GET

POST：提交表单，上传文件

　　※请求的网址(Request URL)

　　※请求头(Request Headers)【爬虫时需要修改】

Cookie：可保存登录状态

　　　　Referer

　　　　User-Agent：爬虫时可以伪装陈浏览器

　　　　Content-Type：对于不同的POST请求需要进行设置

　　　※ 请求体(Request Body)

POST请求时提交的表单数据

　　5、HTTP响应

　　※ 响应状态码(Response Status Code)

　　　　200—成功

　　※响应头(Response Headers)

　　※ 响应体(Response Body)【需要进行解析】

二、网页基础

　　1、 HTML + CSS +LJavaScript

　　2、 HTML DOM树

　　3、 CSS选择器

三、爬虫基本原理

　　1、获取网页—获取HTML源代码

　　　　提取信息

　　　　保存数据

　　　　自动化程序

　　2、 JavaScript渲染页面

　　　Requests、urllib库只能得到HTML代码，无法加载JavaScript文件

　　　Selenium、Splash库实现模拟JavaScript渲染

　　　或者分析后台Ajax接口

　　3、会话和Cookies—保存用户登录状态

　　4、代理服务器

posted @ 2020-02-27 16:51 kuluma 阅读(156) 评论(0) 收藏举报

刷新页面返回顶部

kuluma