【BOOK】爬虫基础
一、 HTTP原理
1、URL--统一资源定位符,网页链接‘’
2、超文本--网页源代码HTML
3、HTTP--超文本传输协议 ——> HTTPS【HTTP+SSL加密(安全性提高)】
HTTP请求—响应
4、HTTP请求
※请求方法(Request Method)
GET
POST:提交表单,上传文件
※请求的网址(Request URL)
※请求头(Request Headers)【爬虫时需要修改】
Cookie:可保存登录状态
Referer
User-Agent:爬虫时可以伪装陈浏览器
Content-Type:对于不同的POST请求需要进行设置
※ 请求体(Request Body)
POST请求时提交的表单数据
5、HTTP响应
※ 响应状态码(Response Status Code)
200—成功
※响应头(Response Headers)
※ 响应体(Response Body)【需要进行解析】
二、 网页基础
1、 HTML + CSS +LJavaScript
2、 HTML DOM树
3、 CSS选择器
三、 爬虫基本原理
1、 获取网页—获取HTML源代码
提取信息
保存数据
自动化程序
2、 JavaScript渲染页面
Requests、urllib库只能得到HTML代码,无法加载JavaScript文件
Selenium、Splash库实现模拟JavaScript渲染
或者分析后台Ajax接口
3、 会话和Cookies—保存用户登录状态
4、 代理服务器