爬虫
1. 请求过程与网页基础
url请求的网址,统一资源定位符号,唯一确定我们想要的资源
请求过程
客户端通常指web浏览器或APP向服务器发送请求,服务器接收到请求,进行处理,并向客户端发起响应
2. 请求
请求:由客户端向服务器发出的,可以分为四个部分,请求方法,请求网址,请求头,请求体
常见的8种请求方法
get:请求页面并返回页面内容
post:用于提交表单数据或上传文件,数据包含在请求体中
put:从客户端向服务区发送数据取代指定文档中的内容
delete:请求服务器删除指定的内容
connect:把服务器当做跳板,让服务器代替客户端访问其他网页
options:回显服务器收到的请求用于测试或诊断
### get和post请求的区别
1. get请求中的参数包含在url里面,数据可以在url中看到而post请求的url不会包含这些数据,post数据都是通过表单形式传输的,会包含在请求体中
2. get请求提交的数据最多只有1024字节,而post没有限制
3. post请求比get相对安全
# 请求头
请求头,用来说明服务器要使用的附加信息,重点掌握:Accept,Cookie,Referer,User-Agent,Host
1.Accept:请求报头域,用于指定客户端可接受那些类型的信息 # 重点
2.Cookie:也常用复数形式Cookie,这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。它是主要功能是维护当前访问会话。例如,我们输
用户名和密码成功登录某个网站后,服务器会用会话保存登录状态信息,后面我们每次刷新或请求该站点的其他页面时,会发现都是登录状态,这就
Cookie的功劳。Cookie里面有信息标识了我们每次刷新或请求该站点是其他页面时,会发现都是登录状态,这就是Cookie的功劳。Cookie里面有信息标
了我们所对应的服务器的对话,每次浏览器在请求该站点的页面时,都会在请求头中加上Cookies并将其发送给服务器,服务器通过Cookies识别出是我
自己,并且查出当前状态是登录状态,所以返回结果加上登录之后才能看到的网页内容 # 重点
3.Referer:此内容用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理。如作来源统计、防盗链处理等 # 微重点
4.User-Agent:简称UA,它是一个特殊的字符串头,可以使用服务器识别客户使用的操作系统及版本,浏览器及版本等信息。在做爬虫时加上此信息,
以伪装为浏览器,如果伪装为浏览器:如果不加,很有可能会被识别为爬虫 # 重点
5.x-requested-with:XMLHttpRequest # 代表ajax请求
6.Accept-Language:指定客户端可接受的语言类型
7.Accept-Encodeing:指定客户端可接受的内容编码
8.Content-Type:也叫互联网媒体类型(Internet Media Type) 或者 MIME 类型,在HTTP协议消息头中,它表示具体请求中媒介类型信息,;例如
text/html代表HTML格式。image/gif代表GIF图片,application/json代表JSON类型
请求体:(古诗文网登陆实例)
请求体一般承载的内容是POST请求中的表单数据,而对于GET请求请求体则为空
get获取页面资源
get和post是否都能向服务器传递数据