HTTP系列-基础篇
1. HTTP概述
HTTP协议(HyperText Transfer Protocol,超文本传输协议)是因特网上应用最为广泛的一种网络传输协议。
设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法,它是一个基于 TCP/IP 通信协议来传输数据的应用层协议。
要注意的点就是:
- 一句话概述HTTP
- HTTP经典的几个版本
- HTTP存在的位置
1.1 一句话概述HTTP
【面试时问起:一句话概述HTTP协议】🌟🌟🌟🌟
HTTP 是一个在计算机世界里专门在两点之间传输文字、图片、音频、视频等超文本数据的约定和规范。
(HTTP通常跑在TCP/IP协议栈
之上,依靠IP协议实现寻址和路由
、TCP协议实现可靠数据传输
、DNS协议实现域名查找
、SSL/TLS协议实现安全通信
。当然,WebSocket、HTTPDNS依赖于HTTP。——「进击的前端工程师」HTTP的世界观(附HTTP/3中文翻译)-童欧巴)
1.2 HTTP经典的几个版本
- 第一版 HTTP/0.9 于1990年问世,并没有作为正式的标准被建立。
- 作为正式的标准被建立是 HTTP/1.0,于1996年5月发布。(比霖呆呆大了4个月)
- 目前主流的版本是 HTTP/1.1,于1997年1月发布。
- 2015年5月 正式发布HTTP/2。(不叫HTTP/2.0,是因为标准委员会不打算发布子版本,下一个版本直接是HTTP/3)
1.3 HTTP存在的位置
处于 TCP/IP 网络分层模型中的第一层应用层。
应用层的其它协议还有:
- FTP:文件传输协议,用来在客户机和FTP服务器之间传输文件。
- DNS域名系统:提供域名到IP地址之间的解析服务。
- SMTP:邮件发送协议,用户通过SMTP服务器发送邮件。
- DHCP:动态主机配置协议,DHCP服务器为客户机动态分配IP地址。
- POP3:邮件接收协议,用于从POP3服务器接收邮件。
【面试时问起一般答前面三个就够了】🌟🌟
2. HTTP特点及缺点
2.1 HTTP特点
常问知识点,重要指数:🌟🌟🌟🌟🌟
- HTTP协议支持客户端/服务端模式,也是一种请求/响应模式的协议。
- 灵活可扩展:一个是语义上的自由,只规定了基本格式,其它的各部分没有严格的限制;第二个它允许传输任意类型的数据对象,例如文本、图片、音频等,传输的类型由Content-Type加以标记。
- 可靠传输,HTTP 基于 TCP/IP,因此把这一特性继承了下来。
- 无状态,也就是说HTTP请求不具备保存之前发送过的请求或响应的功能,每一次请求都是独立无关的。
如果还要的话,可以答一下持久连接:
- 概念:建立一次TCP连接即可进行多次请求或响应的交互
- 产生原因:HTTP的初始版本是每进行一次HTTP通信就要断开一次TCP连接,下次再进行的时候又要重新连接断开。再如今请求的资源越来越大,每次请求如果都有无谓TCP连接和断开是很大的开销。
- 特点:只要有一方没有明确的提出断开连接,则保持TCP连接状态。
- 优点:减少了TCP连接和断开的造成的额外开销,减轻了服务端的负载,Web页面加载变快
- 注意点:在HTTP/1.1中所有的连接默认都是持久连接的(也就是首部字段 Connection: keep-alive,若是想要关闭则将值设置为 close),但是HTTP/1.0并未标准化
(另外其实还有一个管线化的特点,同时并行发送多个请求,而不必等前一个请求完毕才能发送下一个。但是因为各种原因被各大厂商废弃了)
2.2 HTTP的缺点
常问知识点,重要指数:🌟🌟🌟🌟🌟
简单来说:
- 明文传输(不加密),内容可能被窃听。
- 无法验证报文的完整性,内容可能被篡改。
- 不验证通信方的身份,有可能遭遇伪装。
- 无状态,它是缺点也是优点吧,分不同的场景。
- 队头阻塞。
详细来说:
- 明文传输(不加密),内容可能被窃听。协议里的报文不使用二进制数据,而是文本形式
- 无法验证报文的完整性,内容可能被篡改。这里说的完整性也就是指信息的准确度
因为接收方或者发送方没有办法确认对方发送过来的数据在中间有没有被篡改 - 不验证通信方的身份,有可能遭遇伪装。因为HTTP协议中不会对通信方进行确认
任何人都可以发送请求,而且服务器它对收到的请求也不会进行确认,只要收到了请求就会返回一个响应(当然这个只是在发送端的IP地址或者端口号没被Web服务器设定限制访问的前提下) - 无状态,不具备保存之前发送过的请求或响应的功能。它是缺点也是优点吧:
- 对于一些长连接的场景需要保存上下文信息,以免传输重复的数据。
- 对于一些应用只是为了获取数据不需要保存上下文信息,无状态减少了网络开销。
- 队头阻塞:
- 其根本原因在于HTTP是基于 请求-响应 的模型,在同一个TCP长连接中,前一个请求没有得到响应,后面的请求就会被阻塞。
- 用并发连接 和 域名分片 来解决了这个问题。但并不是从HTTP本身的层面来解决的,只是增加了 TCP 连接,分摊风险而已。
- HTTP/2中的多路复用从HTTP本身的层面解决了这个问题
- 和TCP队头阻塞的区别:TCP传输的单位是数据包,它的队头阻塞表示的是前一个报文没有收到便不会将下一个报文上传给HTTP。而HTTP队头阻塞是在 请求-响应 层面,前一个请求还没有处理完,后面的请求就被阻塞。
3. HTTP请求方法
3.1 方法种类
常问知识点,重要指数:🌟🌟🌟🌟🌟
-
GET:获取资源,幂等操作
-
HEAD:获取报文首部,和GET很像但是不返回报文主体,幂等操作
-
POST: 创建或更新资源,非幂等操作
-
PUT: 创建或更新资源本身,幂等操作
-
PATCH:对资源进行局部更新,幂等操作
-
DELETE:删除资源,和PUT功能相反,幂等操作
-
OPTIONS:查询服务器端支持的HTTP方法种类(幂等操作):
请求 OPTIONS * HTTP/1.1
Host: lindaidai.wang响应 HTTP/1.1 200 OK
Allow: GET, POST, HEAD, OPTIONS
(返回服务器支持的方法) -
CONNECT:建立连接隧道,用于代理服务器,幂等操作
-
TRACE:追踪请求,查询发出去的请求是怎样被加工/篡改的,幂等操作。容易引发XST跨站追踪攻击。
3.2 HTTP中的幂等是什么意思
重要指数:🌟🌟🌟🌟
(先让我们来了解一下它的概念)
这东西其实很好理解,你只要记住:如果一个方法重复执行多次,产生的效果是一样的,那么这个方法就是幂等的。它本质上意味着成功执行请求的结果与其执行次数无关。
让我们来具体看看每一项的分析:
- GET方法用于获取资源,不应该有副作用,所以它是幂等的。例如:GET
http://lindaidai.wang/account/123
,不会改变资源的状态,不论是调用一次还是N次都没有副作用。但是要注意了,这里指的是调用多少次都没有副作用,而不是每次GET的结果都相同。因为你想想有可能直接去改了数据库的这条数据,那么下次获取到的可能就不相同了,但是它本身并没有产生副作用,所以满足幂等。 - HEAD方法GET情况一样,只不过它只用于获取报文首部,不返回报文主体,所以它也是幂等的。
- POST和PUT很容易让人混淆,之前我总是简单的认为:
POST表示创建资源,PUT表示更新资源
;但是实际上它们都可用于创建和更新资源,只不过本质的差别就在于幂等性上。POST所对应的URI并非创建资源的本身,而是资源的接收者。例如:POST http://lindaidai.wang/articles
的语义是在http://lindaidai.wang/articles
下创建一篇帖子,HTTP响应中应包含帖子的创建状态以及帖子的URI。两次相同的POST请求会在服务器端创建两份资源,它们具有不同的URI,所以POST是非幂等的。 - PUT方法所对应的URI是要创建或者更新资源本身。这点很容易让人误会它不是幂等的,但其实它是幂等的。例如:
PUT http://lindaidai.wang/accout/321
的语义是创建或者更新ID为123的帖子。第一次PUT方法执行之后,其在服务器上生成的资源,不能被后续的PUT方法更改,所以对同一URI进行多次PUT的副作用和一次PUT是相同的,因而它是幂等的。 - DELETE方法用于删除资源,有副作用(意思就是会修改服务器上的资源内容),但它却是幂等的。因为例如:
DELETE http://lindaidai.wang/accout/321
调用一次和调用N次对系统产生的副作用是相同的,都是为了删掉ID为321的帖子。因此,调用者可以多次调用或刷新页面而不必担心引起错误。 - OPTIONS这个很好理解,只是为了获取服务器支持的方法,我知道的一般是使用了代理然后进行一个预请求的时候会用到。它是幂等的。
【面试时答法】
一个方法是不是幂等,其实就是判断一个方法重复执行多次,产生的效果是不是一样的,如果是幂等的话,它本质上意味着成功执行请求的结果和它的执行次数无关。我所知道的,只有POST和PATCH是非幂等的,其它都是幂等操作。
3.3 GET和POST的区别
不用我多说,常问知识点,重要指数:🌟🌟🌟🌟🌟
(这里我用的是三元总结的一份答案+自己的一些理解)
- 从缓存的角度上说,GET会被浏览器主动缓存下来,留下历史记录,但是POST不会。
- 从编码的角度上说,GET只能进行URL编码,它只能接收ASCII字符,但是POST没有限制。
- 从参数的角度上说,GET一般放在URL上传递参数,POST放在请求体里,更适合传递敏感信息。
- 从幂等的角度上说,GET是幂等的,而POST不是。
- 不过据我了解的,其实GET和POST本质上都是TCP连接,并无差别。但是由于HTTP的规定和浏览器/服务器的限制,导致它们在应用过程中体现出一些不同。
- 还有可以从TCP的角度上说,GET请求会把请求报文一次性发出去,但是POST会分为两个TCP数据包。首先发送的是header部分,若是服务器响应100(continue),则会发送body部分,当然火狐浏览器除外,它的 POST 请求只发一个 TCP 包。
(这时候面试官可能还会追加着问你:既然POST要分为两个TCP数据包发送,那GET是不是会比POST更有效啊)
你可以这样回答:
- 首先,GET和POST都有它们自己的语义的,最好不要混用
- 另外,虽然说POST会分为两个数据包发送,但是其实在网络条件好的情况下,发一次包和发两次包的相差的时间基本可以被无视了。并且在网络条件差的情况下,两次包的TCP在验证数据包的完整性上还有更大的优点。
- 再者,也并不是所有的浏览器的POST请求都会发送两次TCP数据包的,比如火狐就不会。
3.4 支持度
- OPTIONS、CONNECT、TRACE只在HTTP/1.1以上被支持
- LINK、UNLINK在HTTP/1.1中被废弃
3.5 服务端收到不支持的方法会如何处理
当服务端收到不支持的方法时,会返回 405 Method Not Allowed
,并且会把所有支持的方法写入响应报文首部字段Allow
中返回。
4. HTTP状态码
(又是个硬核的知识点啊...这里霖呆呆就只列举一些常用的)
1xx 信息性
请求已经接收到,需要进一步处理才能完成,但是HTTP/1.0 不支持。
101 Switching Protocols
:在HTTP升级为WebSocket时,如果服务器同意变更,则返回 101。
2xx 成功状态
成功处理请求。
200 OK
:请求成功,通常返回的数据中带有响应体。204 No Content
:意思和200
一样,不过返回的数据中不带有响应体。206 Partial Content
:客户端进行了范围请求且服务端正常处理,响应报文的首部应该还有Content-Range
字段指定实体的范围。使用场景为HTTP分块下载和断点续传。
3xx 重定向
重定向状态,资源位置发生变动,需要重新请求。
301 Moved Permanently
:永久重定向,最新的URI为响应报文首部的Location
字段。场景是:例如你的网站换了地址了,之前的地址不用了,若用户还是从之前的地址进的话则会返回301
且在Location
中带上最新的URI。且浏览器默认会做缓存优化,减少服务器压力,在第二次访问的时候自动访问重定向的那个地址。302 Found
:临时重定向,和301
不同,它表示请求的资源临时被移动到了别的URI上,因为是暂时的,所以不会被缓存。303 See Other
:临时重定向,请求的资源临时被移动到了别的URI上,但是明确表示客户端应该使用GET方法获取资源。304 Not Modefied
:客户端带条件请求时虽未满足条件但是也允许返回该资源,它虽然被划分在3xx
中,但其实和重定向没有关系。场景例如:协商缓存成功就会返回304 Not Modefied
,表示请求的资源在服务器上并未发送改变,告诉请求者可以使用缓存。(可以看这篇文章)307 Temprary Redirect
:临时重定向,但是比302
更加明确,重定向的请求方法和实体都不允许变动。场景例如:HSTS
协议,强制客户端使用https
建立连接,比如你的网站从HTTP
升级到了HTTPS
,而你还是通过http://xxx
访问的话,就会返回307 Internal Redirect
。(可以试一下http://juejin.im)
三种临时重定向简单比较:
302 Found
,基本的临时重定向303 See Other
,明确表示客户端应该使用GET
方法307 Temprary Redirect
,请求方法和实体都不允许变动
4xx 客户端错误
客户端出现错误。
400 Bad Request
:请求报文中存在语法错误,但是没有具体指出是哪里。401 Unauthorized
:需要有通过HTTP认证的认证信息或者表示用户认证失败。403 Forbidden
:请求资源被拒绝,原因是:比如法律禁止、信息敏感。404 Not Found
:请求资源未找到,表示没在服务器上找到相应的资源。
5xx 服务端出现错误
服务端出现错误。
500 Internal Server Error
:服务器内部错误,但是没有具体指出是哪里,和400
有点像。501 Not Implemented
:表示客户端请求的功能还不支持502 Bad GateWay
:服务器自身是正常的,但是代理服务器无法获取到合法响应(点外卖时外卖小哥没送)503 Service Unavailable
:服务器内部处于超负载状态或进行停机维护(就像是本店今天不开张)