Http原理

超文本传输协议

HTTP 是一种 超文本传输协议(Hypertext Transfer Protocol)

 

超文本 

人们不满足只能在两台电脑之间传输文字,还想要传输图片、音频、视频,甚至点击文字或图片能够进行超链接的跳转,那么文本的语义就被扩大了,这种语义扩大后的文本就被称为超文本(Hypertext)

 

HTTP请求的全过程

1. 浏览器根据域名解析IP地址

  1.  浏览器缓存:首先搜索浏览器自身的DNS缓存, 看自身的缓存中是否是有域名对应的条目,而且没有过期,如果有且没有过期则解析到此结束
  2.  系统缓存:如果浏览器自身的缓存里面没有找到对应的条目,那么浏览器会搜索操作系统自身的DNS缓存,如果找到且没有过期则停止搜索解析到此结束
  3.  路由器缓存:如果系统缓存也没有找到,则会向路由器发送查询请求
  4.  ISP(互联网服务提供商) DNS缓存:如果在路由缓存也没找到,最后要查的就是ISP缓存DNS的服务器

DNS解析方式

递归查询

是一种DNS 服务器的查询模式,在该模式下DNS 服务器接收到客户机请求,必须使用一个准确的查询结果回复客户机。如果DNS 服务器本地没有存储查询DNS 信息,那么该服务器会询问其他服务器,并将返回的查询结果提交给客户机。

客户机和服务器之间的查询是递归查询

迭代查询

DNS 服务器另外一种查询方式为迭代查询,DNS 服务器会向客户机提供其他能够解析查询请求的DNS 服务器地址,当客户机发送查询请求时,DNS 服务器并不直接回复查询结果,而是告诉客户机另一台DNS 服务器地址,客户机再向这台DNS 服务器提交请求,依次循环直到返回查询的结果为止。

服务器之间的查询是迭代查询

2. 浏览器与WEB服务器建立一个TCP连接

  1. TCP的3次握手

3. 浏览器给WEB服务器发送一个HTTP请求

一个HTTP请求报文由请求行(request line)、请求头部(headers)、空行(blank line)和请求数据(request body)4个部分组成

 

 

 请求行(request line):请求方法字段、URL字段、HTTP协议版本字段。

 请求头部(headers):请求头部由关键字/值对组成,每行一对,关键字和值用英文冒号“:”分隔

 1. User-Agent:产生请求的浏览器类型

 2. Accept:客户端可识别的内容类型列表

 3. Host:请求的主机名,允许多个域名同处一个IP地址,即虚拟主机

请求体: post put等请求携带的数据

 

4. 服务器端响应HTTP请求,浏览器得到HTML代码

HTTP响应报文由状态行(status line)、响应头(headers)、空行(blank line)和响应数据(response body)4个部分组成。

 

 

 

状态行: 由协议版本,状态码和状态码的原因短语组成,
响应头:响应部首组成
响应体:服务器响应的数据
 
5. 浏览器解析HTML代码,并请求HTML代码中的资源
浏览器拿到HTML文件后,开始解析HTML代码,遇到静态资源时,就向服务器端去请求下载
 
6. 关闭TCP连接,浏览器对页面进行渲染呈现给用户
浏览器利用自己内部的工作机制,把请求到的静态资源和HTML代码进行渲染,呈现给用户
 

HTTP 状态码

2XX 成功
  • 200 OK,表示从客户端发来的请求在服务器端被正确处理
  • 201 Created 请求已经被实现,而且有一个新的资源已经依据请求的需要而建立
  • 202 Accepted 请求已接受,但是还没执行,不保证完成请求
  • 204 No content,表示请求成功,但响应报文不含实体的主体部分
  • 206 Partial Content,进行范围请求
3XX 重定向
  • 301 moved permanently,永久性重定向,表示资源已被分配了新的 URL
  • 302 found,临时性重定向,表示资源临时被分配了新的 URL
  • 303 see other,表示资源存在着另一个 URL,应使用 GET 方法丁香获取资源
  • 304 not modified,表示服务器允许访问资源,但因发生请求未满足条件的情况
  • 307 temporary redirect,临时重定向,和302含义相同
4XX 客户端错误
  • 400 bad request,请求报文存在语法错误
  • 401 unauthorized,表示发送的请求需要有通过 HTTP 认证的认证信息
  • 403 forbidden,表示对请求资源的访问被服务器拒绝
  • 404 not found,表示在服务器上没有找到请求的资源
  • 408 Request timeout, 客户端请求超时
  • 409 Confict, 请求的资源可能引起冲突
5XX 服务器错误
  • 500 internal sever error,表示服务器端在执行请求时发生了错误
  • 501 Not Implemented 请求超出服务器能力范围,例如服务器不支持当前请求所需要的某个功能,或者请求是服务器不支持的某个方法
  • 503 service unavailable,表明服务器暂时处于超负载或正在停机维护,无法处理请求
  • 505 http version not supported 服务器不支持,或者拒绝支持在请求中使用的 HTTP 版本
  • 502 Bad Gateway 通常是服务器作为网关或者代理时 返回的错误码,表示服务器自身工作正常,访问后端服务器 时发生了错误,但具体的错误原因也是不知道的
 

HTTP方法

  • GET: 通常用于请求服务器发送某些资源
  • HEAD: 请求资源的头部信息, 并且这些头部与 HTTP GET 方法请求时返回的一致. 该请求方法的一个使用场景是在下载一个大文件前先获取其大小再决定是否要下载, 以此可以节约带宽资源
  • OPTIONS: 用于获取目的资源所支持的通信选项
  • POST: 发送数据给服务器
  • PUT: 用于新增资源或者使用请求中的有效负载替换目标资源的表现形式
  • DELETE: 用于删除指定的资源
  • PATCH: 用于对资源进行部分修改
  • CONNECT: HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器
  • TRACE: 回显服务器收到的请求,主要用于测试或诊断

 

GET和POST区别
  • 数据传输方式不同:GET请求通过URL传输数据,而POST的数据通过请求体传输。
  • 安全性不同:POST的数据因为在请求主体内,所以有一定的安全性保证,而GET的数据在URL中,通过历史记录,缓存很容易查到数据信息。
  • 数据类型不同:GET只允许 ASCII 字符,而POST无限制
  • GET无害: 刷新、后退等浏览器操作GET请求是无害的,POST可能重复提交表单
  • 特性不同:GET是安全(这里的安全是指只读特性,就是使用这个方法不会引起服务器状态变化)且幂等(幂等的概念是指同一个请求方法执行多次和仅执行一次的效果完全相同),而POST是非安全非幂等
PUT和PATCH区别
  • PUT和PATCH都是更新资源,而PATCH用来对已知资源进行局部更新
 
PUT和POST区别
  • PUT方法是幂等的:连续调用一次或者多次的效果相同(无副作用),而POST方法是非幂等的
  • 通常情况下,PUT的URI指向是具体单一资源,而POST可以指向资源集合

 

HTTP的分块传输

 

服务器先生成一个chunk,发送这个chunk,再生成一个chunk,再发送一个chunk,直到全部资源传送完成。分块传送需要在请求头增加一个特殊的键值对transfer-encoding: chunked,那么消息体的内容便是分块传送的
 

HTTP的Pipeline管线化

 

 

 HTTP1.1开始要求服务器支持管线化,可以同时将多个请求发送到服务器,然后逐个读取响应。这个管线化和Redis的管线化原理是一样的,响应的顺序必须和请求的顺序保持一致

 

HTTP的keep-alive

在早期的HTTP/1.0中,每次http请求都要创建一个连接,而创建连接的过程需要消耗资源和时间,为了减少资源消耗,缩短响应时间,就需要重用连接。在后来的HTTP/1.0中以及HTTP/1.1中,引入了重用连接的机制,就是在http请求头中加入Connection: keep-alive来告诉对方这个请求响应完成后不要关闭,下一次咱们还用这个请求继续交流。协议规定HTTP/1.0如果想要保持长连接,需要在请求头中加Connection: keep-alive

 

keep-alive的优点
  • 较少的CPU和内存的使用
  • 允许请求和应答的HTTP管线化
  • 降低拥塞控制 (TCP连接减少了)
  • 减少了后续请求的延迟(无需再进行握手)
  • 报告错误无需关闭TCP连接

 

HTTP2协议

二进制分帧
HTTP/2 采用二进制格式传输数据,而非 HTTP 1.x 的文本格式,二进制协议解析起来更高效
服务器推送
服务端可以在发送页面HTML时主动推送其它资源,而不用等到浏览器解析到相应位置,发起请求再响应
头部压缩
只发送差异数据,而不是全部发送,从而减少头部的信息量
 
 
posted @ 2020-04-12 13:20  byene  阅读(187)  评论(0编辑  收藏  举报