HTTP 转https://www.cnblogs.com/insane-Mr-Li/category/1216836.html
我自己写的随笔一般是偏学习笔记性质的,或者一点个人理解,适合新人,大牛可以忽略这个。。。。。。
参考书籍——《图解http》
当我们在浏览器的地址栏中输入网址,然后点击回车,接着,浏览器就会呈现出我们需要的web界面,那么,这个界面是怎么产生的?
web的界面是根据我们输入的URL(网址、地址),浏览器从服务器端获取对应的文件资源等信息,然后显示在浏览器上面。
像这种通过发送请求获取服务器资源的web浏览器等,都可以称之为客户端(client)
web使用http(超文本传输协议)协议作为规范,来完成从客户端到服务端等一系列的运作流程,而协议指的就是规则的约定,可以说,web是建立在http协议上进行通信的
关于http的产生和发展,这里就不赘述了,有兴趣的童鞋可以百度。。。。。。
为了理解http,有必要简单介绍下tcp/ip协议族
计算机与网络设备之间互相通信,双方就必须基于同样的方法。比如:如何发现通信目标、由谁发起通信、使用什么语言通信、怎么结束通信都需要事先确定,所有这些都需要一种规则,
这就是协议。协议中存在多种的内容;从电缆的规格到ip地址的选定方法,寻找异地用户的方法,建立通信的顺序,以及web页面显示需要处理的步骤等等
像这样把与互联网相关联的协议集合起来统称为tcp/ip。
tcp/ip的分层
tcp/ip很重要的一个特点就是分层。按照层次分为以下四层:应用层,传输层,网络层和数据链路层
分层的好处:如果互联网只由一个协议统筹,那么某一地方出问题,整体都会出现问题,无法使用;分层后,只需替换出现问题的或者需要修改的即可,而且分层后针对具体的设计也变得更为简单
应用层:体系的最高层,应用进程间通信交互的规则
tcp/ip协议族预存了各类通用的应用服务,比如:
ftp:文件传输协议
dns:域名系统协议
http:万维网应用协议
smtp:电子邮件协议
以上几种是常用的几种,还有很多其他的协议,感兴趣的可以找找其他专业的书籍看看
传输层:提供处于网络连接中的两台计算机间的数据传输,其中包括tcp和udp两种性质不同的协议
tcp:传输控制协议,传输的单位为报文段,提供面向连接的,可靠的数据传输服务
udp:传输单位为用户数据报,它是尽最大努力的提供数据传输服务,不保证可靠性
网络层:又名网络连接层
用来处理在网络上流动的数据包(封装)。数据包是网络传输的最小数据单位。该层规定了通过怎样的路径到达对方计算机并把数据包传给对方
链路层:又名数据链路层,网络接口层
处理连接网络的硬件部分。比如控制操作系统、硬件的驱动、网络适配器、光钎等
数据的封装:
用户端发送一个请求,从应用层开始,一直到链路层,每一层都会被打上该层所属的首部信息;反之,接收端在层与层之间传输时,每经过一层会去掉该层的首部信息,这种做法叫做封装
与http密切相关的协议
IP协议:位于网络层,作用是把各种数据包传送给对方,而要准确的把数据传送给对方,就需要满足各类条件,其中有2个很重要的条件:ip地址和mac地址
ip地址相信有点基础的人都知道,就是节点被分配到的地址,mac地址则是指网卡所属的固定地址,ip和mac地址可以进行配对
ip间的通信依赖于mac地址,在信息传输中,有时候由于中转太多,因此会采用ARP协议,这是个用来解析地址的协议,通过ip地址就可以反查出对应的mac地址
tcp协议:位于传输层,确保传输的可靠性
数据传输中为了传输方便,会将大块数据分割成报文段,而tcp协议能确认数据最终是否传送给对方
为了准确传输,传输中采用了三次握手策略(这种手段可以理解为多次确认,来确保数据传输的可靠性)
dns协议:负责域名解析,位于应用层,提供域名到ip地址间的解析
通过域名查找ip地址,或者逆向从ip地址反查域名
URL和URI
URL:统一资源定位符:表示资源的地点,具体指向(门牌号)
URI:统一资源标识符:用字符串标识某些互联网资源(该门牌号的地方具体有什么资源)
URL是URI的子集
http协议基础(二)请求和响应报文的构成
http协议用于客户端和服务器之间的通信,请求访问资源的一方称为客户端,而提供资源响应的一方称为服务器端。
下面就是客户端和服务端之间简单的通信过程
PS:请求必须从客户端建立通信,服务端没收到请求之前不会发送响应
下面先来说说请求的构成:
1)请求方法URI协议/版本
2)请求头(Request Header)
3)请求正文
下面是一个请求的例子:
GET/sample.jspHTTP/1.1
Accept:image/gif.image/jpeg,*/*
Accept-Language:zh-cn
Connection:Keep-Alive
Host:localhost
User-Agent:Mozila/4.0(compatible;MSIE5.01;Window NT5.0)
Accept-Encoding:gzip,deflate
username=jinqiao&password=1234
1)请求方法URI协议/版本
以上请求中“GET”代表请求方法,“/sample.jsp”表示URI,“HTTP/1.1代表协议和协议的版本。
根据HTTP标准,HTTP请求可以使用多种请求方法。具体的方法以及区别后面我们介绍。
2)请求头
请求头和请求正文之间是一个空行,它表示请求头已经结束,接下来的是请求正文。请求正文中可以包含客户提交的查询字符串信息:
username=jinqiao&password=1234
在以上的例子中,请求的正文只有一行内容。当然,在实际应用中,HTTP请求正文可以包含更多的内容。
HTTP响应与HTTP请求相似,HTTP响应也由3个部分构成:
1)状态行
2)响应头
3)响应正文
在接收和解释请求消息后,服务器会返回一个HTTP响应消息。
状态行由协议版本、数字形式的状态代码、及相应的状态描述,各元素之间以空格分隔。
格式: HTTP-Version Status-Code Reason-Phrase CRLF
例如: HTTP/1.1 200 OK
状态代码:
状态代码由3位数字组成,表示请求是否被理解或被满足。
状态描述:
状态描述给出了关于状态代码的简短的文字描述。
状态代码的第一个数字定义了响应的类别,后面两位没有具体的分类。
第一个数字有五种可能的取值:
- 1xx: 指示信息—表示请求已接收,继续处理。
- 2xx: 成功—表示请求已经被成功接收、理解、接受。
- 3xx: 重定向—要完成请求必须进行更进一步的操作。
- 4xx: 客户端错误—请求有语法错误或请求无法实现。
- 5xx: 服务器端错误—服务器未能实现合法的请求。
状态代码 状态描述 说明
200 OK 客户端请求成功
400 Bad Request 由于客户端请求有语法错误,不能被服务器所理解。
401 Unauthonzed 请求未经授权。这个状态代码必须和WWW-Authenticate报头域一起使用
403 Forbidden 服务器收到请求,但是拒绝提供服务。服务器通常会在响应正文中给出不提供服务的原因
404 Not Found 请求的资源不存在,例如,输入了错误的URL。
500 Internal Server Error 服务器发生不可预期的错误,导致无法完成客户端的请求。
503 Service Unavailable 服务器当前不能够处理客户端的请求,在一段时间之后,服务器可能会恢复正常。
响应头
响应头可能包括:
Location:响应报头域用于重定向接受者到一个新的位置。
Server:响应报头域包含了服务器用来处理请求的软件信息。它和User-Agent请求报头域是相对应的,前者发送服务器端软件的信息,后者发送客户 端软件(浏览器)和操作系统的信息。
Content-Encoding:实体报头域被使用作媒体类型的修饰符,它的值指示了已经被应用到实体正文的附加内容编码,因而要获得Content- Type报头域中所引用的媒体类型,必须采用相应的解码机制。
Content-Language:实体报头域描述了资源所用的自然语言。Content-Language允许用户遵照自身的首选语言来识别和区分实体。
Content-Length:实体报头域用于指明正文的长度,以字节方式存储的十进制数字来表示,也就是一个数字字符占一个字节,用其对应的ASCII码存储传输。
要注意的是:这个长度仅仅是表示实体正文的长度,没有包括实体报头的长度。
Content-Type:实体报头域用语指明发送给接收者的实体正文的媒体类型。
Last-Modified:实体报头域用于指示资源最后的修改日期及时间。
Expires:实体报头域给出响应过期的日期和时间。
Expires实体报头域使用的日期和时间必须是RFC 1123中的日期格式,例如:
Expires: Thu, 15 Sep 2005 16:00:00 GMT
下面是一个HTTP响应的例子:
HTTP/1.1 200 OK
Server:Apache Tomcat/5.0.12
Date:Mon,6Oct2003 13:23:42 GMT
Content-Length:112
http协议基础(三)几种数据传输方式
说说http协议的一些特点:
1)无状态
http协议是一种自身不对请求和响应之间的通信状态进行保存的协议,即无状态协议。
这种设置的好处是:更快的处理更多的请求事务,确保协议的可伸缩性
不过随着web的不断发展,有时候,需要将这种状态进行保持,随即,就引入了cookie技术,cookie技术通过在请求和响应报文中写入cookie信息来控制客户端的状态。
有关cookie的内容后面我们再说。。。
2)持久性
正常在发送http时,都需要建立TCP的连接,再发送报文。
如果每次想要发送http报文都需要经过这个过程,那么时间大部分都会消耗在建立和断开连接的过程中。
因此http中使用了connection属性,用于指定连接的方式。
当设置成keep-alive,http就会建立一条持久化的连接,不需要每次都建立连接,再中断。
这样做的好处是:减轻了服务器端的负载,减少开销的那部分时间,使http请求和响应都能更快的结束,相应的,web页面显示速度也就相对提升了。
3)管线化
如果一个http请求,请求了大量的图片等大文件,那么其他的http请求怎么办呢?
现在,管线化技术的出现,使得http请求比持久性连接更要快;特点在于:请求数越多,时间差越明显。
4)内容编码
由于某些报文的内容过大,因此在传输时,为了减少传输的时间,会采取一些压缩的措施。
例如上面的报文信息中,Accept-Encoding就定义了内容编码的格式:gzip
有下面几种方式:
gzip:GNU压缩格式
compress:UNIX系统的标准压缩格式
deflate:是一种同时使用了LZ77和哈弗曼编码的无损压缩格式
identity:不进行压缩
5)多部分对象集合
有的时候传输的内容,不仅仅是一些字符串,还有可能是一些图片,字符,音乐二进制等混杂的内容。
这就需要使用多部分对象集合,multipart,例如在使用java编写web上传文件的代码时,需要在form中指定form的编码格式。
设置form的enctype属性的值为multipart/form-data。
这是因为默认的情况下form使用的编码格式是:applicatin/x-www-form-urlencoded,这种编码格式会把所有的内容进行编码,不适合上传文件这种情况。
这两种编码格式的区别主要是:
multipart/form-data 会以控件为基准,编码form中的内容。
application/x-www-form-urlencoded 会把form中的内容编码成键值对的形式。
6)范围请求
有些场景下,http报文请求一些很大的图片,但是加载过程很慢。
比如我们登录一些大图片的网址,会发现有时候图片是一块一块加载的。
这就是因为设置了http请求的长度,这样就可以分块的加载资源文件。
在请求报文中使用Range属性,在响应报文中使用Content-Type属性都可以指定一定字节范围的http请求。
接下来,说说几种http协议的数据传输方式
http协议的传输方式有很多种,处于安全考虑,常用的一般都是GET和POST两种,先来介绍下这两种
1)GET:获取资源
GET方法用来请求访问已被URL识别的资源
2)POST:传输实体主体
POST方法用来请求服务器传输信息实体的主体
GET和POST的区别:
首先,使用目标不同:GET方法只是用来查询,不会对浏览器上的信息产生影响,每次GET的方法都是相同的
其次,大小不同:GET是放在URL首部,因此大小随着浏览器而定,而POST则是在报文中,只要没有具体限制,文件的大小是没限制的
然后,安全性不同:GET采用的是明文传输,而POST是放在报文内部,无法看到
从使用场景的角度来说,一般像用户注册登录这种信息都是私密的,采用POST,而针对查询等,为了快速,大多采用GET传输。
(关于关于GET和POST的区别,最近重新看了很多别人写的博客啊资料什么的,发现上面的解释比较模糊,我就在下面的评论区里面将区别清晰的描述一下,当然,后面的博客也会详细的解释)
接下来介绍其他几种数据传输方式:
3)PUT:传输文件
PUT要求在请求报文的主体中包含文件内容,然后保存到请求URL指定的位置
处于安全考虑,一般web网站不使用此方法,若配合web的安全验证机制,或者架构采用REST标准的网站,就可能开放使用此方法
4)HEAD:获得报文首部
HEAD和GET方法一样,只不过不返回报文主体部分,用于确认URI的有效性及资源更新的日期时间等
5)DELETE:删除文件
DELETE是与PUT相反的方法,是按请求URI删除指定的资源
处于安全考虑,一般web网站不使用此方法,若配合web的安全验证机制,或者架构采用REST标准的网站,就可能开放使用此方法
6)OPTIONS:询问支持的方法
用来查询针对请求URI指定的资源支持的方法
7)TRACE:追踪路径
是让web服务器端将之前的请求通信还回给客户端的方法
发送请求时,在Max-Frowards首部字段中填入数值,每经过一个服务器端就-1,当数值为0时,停止传输,最后收到服务器返回状态码200 OK的响应
但是,这种方法基本很少使用,而且很容易引起XST(跨站追踪)攻击,就更不会用到了。
8)CONNECT:要求采用隧道协议连接代理
该方法要求在于代理服务器通信时建立隧道,实现用隧道协议进行TCP通信,主要使用SSL(安全套接层)和TLS(传输层安全)协议把通信内容加密后经过网络传输。
最后,附上一张http1.1和http1.0版本各自支持的方法,另外,注意用大写。。。。。。
其中,LINK和UNLINK已被HTTP1.1废弃,不再支持!
http协议基础(四)http状态码
一:http状态码
表示客户端http请求的返回结果、标记服务器端的处理是否正常、通知出现的错误等工作
状态码的类别如下:
http状态码种类繁多,大概有60多种,实际上经常使用的只有14种,下面为一一介绍
1、2XX 成功:请求被正常处理
1.1 200 OK
表示从客户端发来的请求在服务器端被正常处理
1.2 204 No Content
表示服务器接收的请求以成功处理,但没有资源可返回,即:响应报文中不含实体的主体部分
1.3 206 Partial Content
表示客户端进行了范围请求且服务器成功执行了这部分的GET请求,响应报文中包含由Content_Range指定范围的实体内容
“Content_Range为请求首部的一种类型,后面的随笔会讲到”
2、3XX 重定向: 服务器需要执行某些特殊处理以正确处理请求(即URI地址或者资源的缓存的资源有效时间过期)
2.1 301 Moved Permanently
永久性重定向:表示请求的资源已被分配了新的URI,以后应使用资源现在的URI,如果已经保存了书签,这时候应该按照Location首部提示的URI重新保存
2.2 302 Found
临时性重定向:表示请求的资源已被分配到了新的URI,希望(本次)能使用新的URI访问
2.3 303 See Other
表示请求对应的资源存在另一个URI,应该使用GET方法定向获取请求的资源
PS:当301、302、303响应状态码返回,几乎所有浏览器都会把POST改成GET,并删除请求报文内的主体,之后请求自动再次发送
301、302标准禁止将POST改为GET,但实际中都会允许这么做~~~GG
2.4 304 Not Modified
表示客户端发送得附带条件的请求时,服务器运行请求访问,但未满足条件的情况,304返回时,不包含任何响应的主体部分
附带条件:采用GET方法的请求报文中包含If-......条件的任一首部,后面的随笔中介绍
2.5 307 Temporary Redirect
临时重定向:禁止将POST转换为GET,该状态码会严格遵守浏览器标准
3、客户端错误:4XX的响应结果表明客户端是发生错误的原因所在
3.1 400 Bad Ruquest
请求报文存在语法错误
3.2 401 Unauthorized
发送的请求需要有通过http认证(BASIC认证、DIGEST认证)的认证信息
PS:若之前已经进行了一次请求,则表示用户认证失败
返回含有401的响应必须包含一个适用于被请求资源的WWW-Authenticate首部用来质询用户信息
3.3 403 Forbidden
对请求资源的访问被服务器拒绝(服务端没有必要给出拒绝的详细理由,如果想做说明,可在实体主体部分对原因进行描述)
举例:未获得文件系统的访问授权、访问权限出现某些问题等
3.4 404 Not Found
服务器上无法找到请求的资源
4、 5XX服务器错误:服务器本身发生错误
4.1 500 Internal Server Error
服务器端执行请求时发生错误
4.2 503 Server Unavailable
服务器暂时处于超负载或者正在停机维护,现在无法处理请求
http协议(五)web服务器
1、http1.1规范允许一台http服务器搭建多个web站点。。。
比如提供web托管服务的供应商,可以用一台服务器为多为客户服务,也可以以每位客户持有的域名运行各自不同的网站,这里利用了虚拟服务器的功能。。。
客户端使用http协议访问服务器时,会经常采用类似www.baidu.con这样的主机名和域名
在互联网上,域名通过DNS服务映射到IP地址之后访问目标网站,可见,请求发送到服务器时,已经是以IP地址形式访问
所以,如果一台服务器内托管了www.baidu.com和www.sina.com这两个域名,收到请求时就需要搞清楚究竟要访问哪个域名
在相同的IP地址下,发送请求时,必须在Host首部内完成指定主机名或者域名的URI。
2、通信数据的转发程序
http通信时,出客户端和服务器外,还有一些用于通信数据转发的应用程序,比如代理、网关、隧道
2.1 代理:具有转发功能的应用程序
扮演了客户端和服务器“中间人”的角色,接受请求并转发给服务器,同时也接受响应并返回给客户端
代理不会改变URI,会直接将请求发送给持有资源的源服务器,然后响应通过代理服务器后再传给客户端
http通信中,可以级联多台代理服务器,每次通过代理服务器转发请求和响应时,会追加写入Via首部信息,以标记出经过的主机信息
代理服务器的优点:利用缓存技术(下文)减少网络带宽流量,组织内部针对特定网站的访问控制,获取访问日志为主要目的等
缓存代理:预先将资源的副本缓存在代理服务器上,再次受到对相同资源的请求时,可以将自己的缓存返回
透明代理:转发请求或者响应时,不对报文做任何加工的代理类型
2.2 网关:转发其他服务器通信数据的服务器
接受客户端发来的请求,就像自己拥有资源的服务器一样处理请求
网关的工作机制与代理什么类似,而网关可以使通信线路上的服务器提供非http协议服务
特点:提高通信安全性,可以在客户端和网关之间通信线路上加密以确保连接安全。
2.3 隧道:在客户端和服务器之间进行中转,并保持双方通信连接的应用程序
特点:可以使用SSL等加密手段进行通信,确保客户端能与服务器进行安全的通信
3、资源的缓存
缓存是指代理服务器或者客户端本地磁盘内保存的资源副本。
利用缓存可减少对源服务器的访问,节省通信流量和通信时间。
3.1 缓存的有效期
当源服务器的资源更新时,或者因为客户端要求,缓存的有效时间等因素,都需要向源服务器确认有效性,如果缓存失效,缓存服务器将再次向源服务器获取最新的资源
3.2 客户端的缓存
缓存不仅可以存与代理服务器内,还可以存在客户端浏览器中。如果缓存有效,就可以直接从本地磁盘中读取资源
同样,当缓存过期,还是需要向源服务器请求资源
http协议基础(六)报文首部
http请求和响应报文内容比较多,会分为大概四部分更新,最近比较忙,没太多时间整理- -
首先来看看报文结构吧
1、http请求报文
http请求报文由方法、URI、http版本。http首部字段等构成
下面给大家示例一个访问my_view_page.php的请求报文首部信息
GET /my_view_page.php HTTP/1.1
Host: 10.0.17.183:8000
Connection: keep-alive
Cache-Control: max-age=0
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Referer: http://10.0.17.183:8000/my_view_page.php
Accept-Encoding: gzip, deflate, sdch
关于报文的首部信息,稍微详解
2、http响应报文
http响应报文由http版本、状态码(数字和原因短语)、http首部字段3部分组成
以下是刚才访问my_view_page.php时服务器返回的响应报文首部信息:
HTTP/1.1 200 OK
Cache-Control: no-store, no-cache, must-revalidate
Date: Tue, 26 Jul 2016 09:32:11 GMT
Expires: Tue, 26 Jul 2016 09:32:12 GMT
Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 3892
Content-Type: text/html; charset=utf-8
Last-Modified: Tue, 26 Jul 2016 09:32:12 GMT
报文中含有众多的字段,其中又以http首部字段内容最丰富,其同时存在于请求和响应中,并涵盖http报文相关的内容
3、http首部字段
定义:构成http报文的要素之一,在客户端与服务器之间以http协议传输信息的过程中,起到传递额外重要信息的作用
3.1首部字段结构
首部字段名:字段值
例如:以Content-Type来表示报文主体的对象类型
Content-Type:text/html
另外,字段值对应的单个http首部字段可以有多个值,比如
Keep-Alive:timeout=15,max=100
3.2 4种http首部字段类型
http1.1规范了47种首部字段
3.2.1 通用首部字段
定义:请求和响应报文都会使用的首部
3.2.2 请求首部字段
从客户端向服务器发送请求报文时使用的首部,补充了请求的附加内容、客户端信息、相应内容相关优先级信息
3.2.3 响应首部字段
从服务器向客户端返回响应报文时使用的首部。补充了资源内容更新时间等与实体有关的信息
3.2.4 实体首部字段
针对请求报文和响应报文的实体部分使用的首部,补充了资源内容更新时间与实体有关的信息
3.2.5 End-to-end首部和Hop-by-hop首部
http首部字段将定义成缓存代理和非缓存代理的行为,分成2种类型
端到端首部(End-to-end Header)
此类别中的首部会转发给请求/响应对应的最终接受目标,而且必须保存在由缓存生成的响应中,另外规定它必须被转发。
逐跳首部(Hop-by-hop Header)
此类别中的首部只对单次转发有效,会因通过缓存或代理而不再转发;http1.1和之后的版本,如要使用该首部,需提供Connection首部字段。
下面列举下http/1.1中的逐跳首部字段,除了这8个,其他所有字段都属于端到端首部。
Connection:
Keep-Alive
Proxy-Authenticate
Proxy-Authorization
Trailer
TE
Transfer-Encoding
Upgrade
http协议基础(七)通用首部字段
通用首部字段的意思,就是:请求和响应报文双方都会使用的首部
1、Cache-Control
通过指定它的指令,能操作缓存的工作机制
指令参数是可选的,多个指令通过“,”分隔
Cache-Control: private, max-age=0, no-cache
Cache-Control指令一览:
1.1 缓存请求指令
指令 |
参数 |
说明 |
no-cache |
无 |
强制向源服务器再次验证 |
no-store |
无 |
不缓存请求或相应的任何内容 |
max-age[秒] |
必须 |
相应的最大Age值 |
max-stale(=[秒]) |
可省略 |
接收已过期的响应 |
min-fresh=[秒] |
必须 |
期望在指定时间内的响应仍有效 |
no-transform |
无 |
代理不可更改媒体类型 |
only-if-cached |
无 |
从缓存获取资源 |
cache-extension |
|
新标记指令(token{-}) |
1.2 缓存响应指令
指令 |
参数 |
说明 |
public |
无 |
可向任意方提供响应的缓存 |
private |
可省略 |
仅向特定用户返回响应 |
no-cache |
可省略 |
缓存前必须先确认其有效性 |
no-store |
无 |
不缓存请求或响应的任何内容 |
no-transform |
无 |
代理不可更改媒体类型 |
must-revalidate |
无 |
可缓存但必须再向源服务器进行确认 |
proxy-revalidate |
无 |
要求中间缓存服务器对换缓存的响应有效性再次确认 |
max-age=[秒] |
必需 |
响应的最大Age值 |
s-maxage=[秒] |
必需 |
公共缓存服务器响应的最大Age值 |
cache-extension |
|
新指令标记(token{-}) |
1.3 public
共享、公开的缓存状态,与private相反
Cache-Control: public
1.4 private
指定缓存对象,需要验证
Cache-Control: private
1.5 no-cache
防止从缓存中返回过去的资源,请求中如包含该命令,表示客户端不会接收缓存过的响应,必须向源放武器转发请求
如果响应中包含该命令,那么缓存服务器不能对其资源进行缓存,且源服务器也将不在对缓存服务器请求中提出的资源有效性进行确认,且禁止其对相应资源进行缓存操作
Cache-Control: no-cache=Location
由服务器返回的响应报文首部字段中,若Cache-Control中对no-cache字段名具体制定参数值,那么客户端在收到这个被指定参数值的首部字段对应的报文后,就不能缓存
换言之,无参数值的首部字段可以使用缓存,只能在响应中制定该参数
1.6 no-store
请求中包含机密信息,缓存不能在本地存储请求或响应的任一部分k
Cache-Control: no-store
1.7 s-maxage
一般指代理服务器
与max-age指令相同,不同点在于s-maxage只适用于供多位用户使用的公共缓存服务器
当使用该指令时,直接忽略对Expires首部字段及max-age指令的处理
Cache-Control: s-maxage=604800(单位:秒)
1.8 max-age
缓存资源缓存时间数值低于指定数值,就接受缓存的资源,如max-age为0,则需要请求源服务器
http1.1中,如遇到存在Expires首部字段的情况,会忽略Expires字段,优先处理max-age指令
Cache-Control: max-age=604800(单位:秒)
1.9 min-fresh
要求缓存服务器返回未过指定时间的资源
Cache-Control: min-fresh=60(单位:秒)
1.10 max-stale
规定缓存的有效期,如指令中没有参数,则无论多久,客户端都可以接受响应,如指定了参数,即使过了有效期,只要在指令的范围内,客户端都可以接受响应
Cache-Control: max-stale
1.11 only-if-cached
表示客户端只在缓存服务器有对应资源的情况下才接受响应,若无,则返回504
Cache-Control: only-if-cached
1.12 must-revalidate
代理向客户端返回响应前再次向源服务器确认资源的有效性,若无,则返回504,且该指令会忽略请求中的max-stale指令
Cache-Control: must-revalidate
1.13 proxy-revalidate
要求所有的缓存服务器在向客户端返回响应之前再次向源服务器确认资源的有效性
Cache-Control: proxy-revalidate
1.14 no-transform
要求无论请求还是响应,都不能改变实体主体的媒体类型,防止缓存或者代理压缩图片等操作
Cache-Control: no-transform
2、Connection
该首部字段具备下面2个作用
1)控制不再转发给代理的首部字段
Connection:不再转发的字段名(即删除后再转发)
2)管理持久连接
http1.1默认都是持久连接,客户端会在持久连接上持续发送请求,当服务器明确表示需要断开连接时,则指明首部字段值为close
Connection: close
http1.1之前的版本默认都是非持久连接,需要在旧版本上保持持久连接,需要加入Keep-Alive指令
Connection-Keep-Alive
3、Date
表明创建http报文的日期和时间
目前http1.1版本使用如下格式的时间:
Date: Sun, 31 Jul 2016 01:28:48 GMT
4、Pragma
是http1.1之前的版本历史遗留字段,仅作为与http1.0的向后兼容而定义,规范定义的形式唯一,如下所示
Pragma: no-cache
只用于客户端发送的请求中,客户端要求所有的中间服务器不返回缓存的内容
5、Trailer
事先说明在报文主体后记录了哪些首部字段,可应用于http1.1版本分块传输编码时
6、Transfer-Encoding
规定报文主体的编码方式
http1.1的传输编码方式仅对分块传输编码有效
Transfer-Encoding: chunked
7、Upgrade
检测http协议及其他协议是否可使用更高的版本进行通信,其参数值可用来指定一个完全不同的通信协议
客户端请求:
GMT /index.htm HTTP/1.1
Upgrade: TLS/1.0
Connection: Upgrade
服务器响应:
HTTP/1.1 101 Switching Protocols
Upgrade: TLS/1.0, HTTP/1.1
Connection: Upgrade
上面的例子中,首部字段Upgrade指定的值为TLS/1.0,这里的两个首部字段的对应关系,Connection的值被指定为Upgrade。
Upgrade对象仅限于客户端和邻近服务器之间,因此,使用首部字段Upgrade时,还需要额外指定Connection Upgrade
对于附有首部字段Upgrade的请求,服务器可以用101Switch Protocols状态码作为响应返回
8、Via
使用首部字段Via是为了追踪客户端与服务器间的请求和响应报文的传输路径
Via不仅用于追踪报文的转发,还可避免请求回环的发生,因此,必须在经过代理时附加该首部字段内容
9、Warning
告知用户与一些与缓存相关的问题的警告
Warning的首部格式如下,日期部分可省略
Warning:[警告码] [警告的主机:端口号] "[警告内容]" ([日期时间])
http1.1中定义了7中警告,警告码对应的警告内容仅供参考
另外,警告码具备扩展性,今后有可能追加新的警告
http协议基础(八)请求首部字段
请求首部字段
定义:请求首部字段是从客户端到服务器发送请求报文中所使用的字段,里面包含了附加信息、客户端信息以及对响应内容相关的优先级等内容
1、Accept
通知服务器用户代理可处理的媒体类型及媒体类型的相对优先级,可使用type/subtype这种形式,一次指定多种媒体类型
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
q表示权重,默认值为1.0,当服务器提供多种内容时,将会有优先返回权重值最高的媒体类型
下面举几个例子:
文本文件:
text/html,text/plain,text/css...
application/xhtml+xml,application/xml...
图片文件:
image/jpeg,image/gif,image/png...
视频文件:
video/mpeg,video/quicktime...
应用程序使用的二进制文件
application/octet-stream,application/zip...
2、Accept-Cherset
通知服务器用户代理支持的字符集及字符集的相对优先级,可一次性指定多个字符集。
该首部字段可用权重q值来表示相对优先级
该首部字段应用于内容协商机制的服务器驱动协商
Accept-Charset: iso-8859-5, unicode-1-1;q=0.8
3、Accept-Encoding
告知服务器用户代理支持的内容编码及内容编码优先级顺序,可一次性指定多种内容编码
Accept-Encoding: gzip, deflate
常用的几种编码格式:
gizp:由文件压缩程序gzip(GUN zip)生成的编码格式
compress:由UNIX文件压缩程序compress生成的编码格式
deflate:组合使用zlib格式及由deflate压缩格式生成的编码格式
jdentity:不执行压缩或不会变化的默认编码格式
同样,这里可以使用q值表示相对优先级,也可以使用(*)作为通配符,指定任意的编码格式
4、Accept-Lanuage
告知服务器用户代理能够处理的自然语言集,以及其相对有限集,可一次指定多种自然语言集
同样可使用权重值q表示相对优先级
Accept-Lanuage: zh-cn,zh;q=0.7,en=us,en;q=0.3
5、Authorization
告知服务器用户代理的认证信息(证书值)。
通常想要通过验证的用户代理会在接受到第一次返回的401状态码响应后,把首部字段加入请求中,共用缓存接收到含有该字段的请求时操作处理会有所差异
6、Expect
客户端使用该字段告知服务器,期望出现某种特定行为
如果服务器无法理解期望作出回应而发生错误,会返回状态码417Expect Failed,客户端可以利用该字段,写明所期望的扩展
http/1.1规范值定义了100-continue(转台吗100Continue之意)
Expect: 100-continue
7、From
告知服务器使用用户代理的用户垫子邮件地址
目的:显示搜索引擎等用户代理的负责人的电子邮件联系方式
From: IMyalost@163.com
8、Host
告知服务器请求的资源所处的互联网主机名和端口号
Host首部字段是在HTTP/1.1规范内唯一一个必须被包含在请求内的首部字段
Host: www.baidu.com
9、If-Match
格式如If-xxx这样的请求首部字段,都可以称之为条件请求,服务器收到请求,只有判定条件为真时,才会执行请求
该字段告知服务器匹配资源所用的实体标记(ETag)值,这时无法使用弱ETag值
如果判断条件不为真,则返回412Precondition Failed响应
还可以使用(*)指定If-Match的字段值,这种情况下服务器将忽略ETag值,只要资源存在就处理请求
If-Match: "123456"
10、If-Modified-Since
条件请求,告知服务器若字段指定值早于资源更新时间,则希望能处理请求,如果在该字段指定的日期时间大于资源更新时间,则返回304Not Modified响应
用于确认代理或者客户端拥有的本地资源的有消息
If-Modified-Since: Thu, 15 Apr 2004 00:00:00 GMT
11、If-None-Match
条件请求,和If-Match作用相反。当该字段值的实体标记(ETag)值与请求资源的ETag不一致时,告知服务器处理该请求
在GET或HEAD方法中使用该字段可获取最新的资源
12、If-Range
条件请求,告知服务器若指定的值和请求资源的值一致,则作为范围请求处理,反之,则返回全部资源
request: response:
GET /index.html 206 Partial Content
If-Range: "123456" Content-Range: bytes 5001-10000/10000
Range: bytes=5001-10000 Content-Length:5000
上面的请求和资源匹配一致,那么久作为范围请求处理
13、If-Unmodified-Since
条件请求,该字段和If-Unmodified-Since字段作用相反,作用是告知服务器,指定的请求资源只有在字段值内指定的日期之后,未发生更新的情况下,才能处理请求。
如指定时间之后发生更新,则返回412 Precondition Failed作为响应返回
If-Unmodified-Since: Thu, 03 Jul 2016 00:00:00 GMT
14、Max-Forwards
我们都知道使用http协议通信时,请求可能会经过代理等多台服务器,如果由于某些原因导致请求转发失败,那么客户端收不到响应,我们对此一无所知
通过TRACE或者OPTIONS方法,发送包含该字段的请求时,该字段以十进制整数形式指定可经过的服务器最大数目
简单来讲,就是指定Max-Forwards的值,每经过一次转发,就-1.当值变为0.直接返回响应
Max-Forwards: 10
15、Proxy-Authorization
收到代理服务器发来的认证质询时,客户端向代理服务器发送包含首部字段的请求,以告知服务器所需要的认证的信息
Proxy-Authorization: Basic dGLwoPNLAGKGFY5
16、Range
对于只需获取部分资源的范围请求,包含首部字段Range即可告知服务器资源的指定范围
接收到附带Range字段的服务器,会返回206Partial Content的响应;无法处理请求时,则返回200 OK的响应及全部资源
Range: bytes=5001-10000
17、Referer
告知服务器请求的原始资源的URI
Referer:www,baidu.com/index.xml
18、TE
告知服务器客户端能够处理响应的传输编码方式及相对优先级
TE:gzip, deflate;q=0.5
该字段还可以指定伴随trailer字段的分块传输编码的方式
TE:trailers
19、User-Agent
该字段会将创建请求的浏览器和用户代理名称等信息传给服务器
如果由网络爬虫发起请求,可能会在请求中添加爬虫作者的垫子邮件地址。因此,如果请求经过代理,那么中间也很可能被添加上代理服务器名称
User-Agent: Mozilla/5.0 (windows NT 6.1; WOW64; rv13.0) Gecko/=20100101 Firfox/13.0.1
http协议基础(九)响应首部字段
响应首部字段:
服务器向客户端返回响应报文中所使用的字段,用于补充的附加信息、服务器信息、以及对客户端的附加要求等
1、Accept-Ranges
告知客户端服务器能否处理范围请求,以指定获取服务器的某部分资源
可指定的字段值分2种:
1.1 bytes:可处理范围请求
1.2 none:不能处理范围请求
Accept-Ranges: bytes
2、Age
告知客户端源服务器创建响应多久了,单位S
若创建响应的是缓存服务器,该字段指缓存后响应再次发起认证到认证完成的时间值,此时,必须加上首部字段Age
Age: 600
3、ETag
告知客户端实体标识。
这是一种将资源以字符串形式做唯一标识的一种方式,服务器会为没份资源分配对应的ETag值
另外,当资源更新时,ETag值也需要更新
ETag: "82e22293907ce725faf67773957acd12"
强ETag值和弱ETag值
3.1 强ETag值:不论实体发生多么细微的变化,都会改变其值
ETag: "usagi-1234"
3.2 弱ETag值
只提示资源是否相同;只有资源发生了根本改变,产生差异才会改变ETag值,此时,会在字段值最开始处附加W/
ETag: W/"usagi-1234"
4、Location
将响应接受方引导至某个与请求URI位置不同的资源
基本上该字段都会配合3xx:Redirction的响应,提供重定向的URI
Location: http://www.usagidesign.jp/sample.html
5、Proxy-Authenticate
把代理服务器所要求的认证信息发给客户端,他的认证行为在客户端与代理间进行
Proxy-Authenticate: basic realm="Usagidesign Auth"
6、Retry-After
告知客户端在多久之后再次发送请求,主要配合状态码503 Service Unavailable响应,或者3XX Redirect响应一起使用
字段值可以指定具体的日期时间(Wed, 04 Jul 2012 06: 34: 24 GMT等格式),也可以是创建响应后的秒数
Retry-After: 120
7、Server
告知客户端当前服务器上安装的http服务器应用程序的信息。其中包含软件应用名称,甚至版本号和安装时的启动项
Server: Apache/2.2.17(Unix)
Server: Apache/2.2.6(Unix) PHP/5.2.5
8、Vary
控制缓存。源服务器向代理传达关于本地缓存使用方法的命令
客户端收到从代理服务器收到的从源服务器返回的包含该字段指定项的响应之后,若再次进行缓存,仅对请求中含有相同字段的请求返回缓存
Vary: Accept-Language
9、WWW-Authenticate
HTTP访问认证。告知客户端适用于访问请求URI所指定资源的认证方案和带参数提示的查询
状态码401 Unauthorized响应中,肯定包含该字段
http协议基础(十)实体首部字段
1、定义
包含在请求和响应中的实体部分所使用的首部,用于补充内容的更新时间等与实体相关的信息
2、Allow
通知客户端能够支持的Request-URI指定资源的所有http方法:如果服务器接收到不支持的方法,会返回状态码405Method Not Allowed作为响应返回
Allow:GET, HEAD
3、Content-Encoding
告知客户端服务器对实体的主体部分的选用的内容编码方式
内容编码指在不丢失实体信息的前提下所进行的压缩
主要采用以下这四种内容编码方式
gizp,conpress,deflate,identity
Content-Encoding: gizp
4、Content-Lanuage
告知客户端实体主体使用的自然语言(优先接收的语言)
Content-Lanuage: zh-CN
5、Content-Length
表明实体主体部分的大下(单位是字节)
若对实体主体进行编码传输,不能使用该字段
Content-Length: 15000
6、Content-Location
给出了与报文主体部分相对应的URI。与Location不同,该字段表示的是报文主体返回资源的URI
Content-Location: http://www.baidu/com/index-miss.html
7、Content-MD5
由一串由MD5算法生成的值,其目的在于检查报文 主体在传输中是否保持完整,以及确认传输到达。
Content-MD5: OFJKGKLDFUIGNG35565FGNHLDGNH==
8、Content-Range
告知客户端作为响应返回的实体的哪个部分符合范围请求,(单位:字节),表示当前发送部分及整个实体大小
Content-Range: bytes 5001-10000/10000
9、Expires
告知客户端资源失效的日期
如果首部字段存在Cache-Control有指定max-age指定时,会优先处理max-age指令
Expires: Wed, 04 Jul 2016 09:26:05 GMT
10、Last-Modified
指明资源的最终修改的时间
Last-Modified: Wed, 04 Jul 2016 09:26:05 GMT
这部分主要是附带说说,一般工作中不常用到,但了解也是很有好处的 - -
为Cookie服务的首部字段
Cookie的工作机制是用户识别及状态管理。
实现原理:方便管理用户状态,通过web浏览器将一些数据临时写入用户的计算机内,当用户访问时可通过通信方式取回之前发送的Cookle
调用Cookie的时候,由于可以调用Cookie的有效期,以及发送方的域、路径、协议等信息,所以正规发布的Cookie不是因为来自其他web站点和攻击者的攻击而泄漏
为Cookle服务的首部字段:
1、Set-Cookie字段的属性:
1)expires
指定浏览器可发送Cookie的有效期
若不指定则默认为会话时间段内
一旦Cookie从服务端发送到客户端,服务器就不存在可显式删除Cookie的方法,但可通过覆盖已过期的Cookie,实现对客户端的实质性删除
2)path
用于限制指定Cookie发送范围的文件目录
3)domain
通过该属性指定的域名可做到与结尾匹配一致
除了针对具体指定的多个域名发送的Cookie外,不指定domain属性显得更安全
4)secure
限制web界面仅在HTTPS安全连接时,才可以发送Cookie
发送Cookie时,指定属性的方法如下:
Set-Cookie: name=value; secure
5)HttpCookie
Cookie的扩展功能,使JavaScript脚本无法获得Cookie。主要目的是为了防止跨站脚本攻击对Cookie的信息窃取
发送指定HttpOnly属性的方法如下:
Set-Cookie: name=value; HttpOnly
2、Cookie
告知服务器,客户端想获得http状态管理支持时,就会在请求中包含从服务器接收到的Cookie。接收多个时,同样可以以多个发送
到这里基本关于http协议的基础就整理完了,整个的思路大概就是对TCP/IP的介绍,握手,数据传输的方式以及几种数据传输方法,请求响应报文的类型,字段等知识。。。
http协议基础(十一)http与https
一、http的缺点
之前有介绍过http协议相关的一些知识,http是相当优秀和方便的,但它也有缺点,主要不足表现在如下几个方面:
△ 通信使用明文(不加密),内容可能会被窃听
△ 不验证通信方的身份,因此可能遭遇伪装
△ 无法证明报文的完整性,所以有可能已被篡改
其他未加密的协议也存在这类问题
△ 某些特定web服务器和特定web浏览器存在安全漏洞
1、通信使用明文可能被窃听
http本身不具有加密功能,无法做到对通信整体(使用http协议通信的请求和响应内容)进行加密,即:http报文使用明文(未经加密的报文)方式传送
TCP/IP协议族的通信机制:通信内容在所有通信线路上都可能被窥视
应对措施:对通信进行加密处理防止被窃听
加密对象:
①.通信的加密
http协议没有加密机制,可以通过SSL(Secure Socket Layer:安全套接层)或TLS(Transport Layer Security:安全层传输协议)组合使用,
加密http的通信内容,这就是常说的https(超文本传输安全协议)
②.内容的加密
http协议没有加密机制,对传输的内容本身进行加密,即报文实体主体部分;客户端对请求报文加密处理后传输,但前提是客户端和服务器都具有加密和解密机制,
主要应用于WEB服务中(但仍然有被篡改的风险)
2、不验证通信方身份,可能遭遇伪装
http协议中请求和响应不会对通信方进行确认,即存在“服务器是否是发送请求中URI真正指定的主机。返回的响应是否真的返回到实际提出请求的客户端”等类似问题
任何人都可以发起请求,服务器只要接收到请求,不管对方是谁都会返回一个响应(仅限于发送端IP和端口号没有被WEB服务器设定限制访问的前提下)
http协议的隐患有以下几点:
①.无法确定请求发送至目标的web服务器是否是按真实意图返回响应的服务器;有可能是已伪装的服务器
②.无法确定响应返回到的客户端是否是按真实意图接受响应的那个客户端;有可能是已伪装的客户端
③.无法确定正在通信的对方是否具备访问权限;因为某些web服务器保存有重要信息,只发给特定用户通信的权限
④.无法判断请求来自何方
⑤.即使时无意义的请求也会接收,无法阻止海量请求下的D0S攻击(Denial of Service:拒绝服务攻击)
3、无法证明报文完整性,可能已遭篡改
完整性:指信息的准确度,若无法证明其完整性,意味着无法判断信息是否正确
http协议无法证明通信的报文完整性,因此,请求或者响应在传输过程中,如果遭到篡改,是无法知道的;类似这种请求或响应传输中被攻击者拦截篡改的攻击
称为中间人攻击(Man-in-the-Middle attack,MITM)
防止篡改:常用的方法有MD5和SHA-1等散列值校验的方法,以及来确认文件的数字签名方法
二、HTTP+加密+认证+完整性保护=HTTPS
1、通常把添加了加密和身份认证机制的http协议称为https(HTTP Secure);证书可证明服务器或者客户端的身份
2、https相当于身披SSL外壳的http
https并非应用层的一种新协议,而是在http通信接口部分用SSL(Secure Socket Layer:安全套接字层)和TLS(Transport Layer Security:安全层传输协议)协议代替
通常,http和TCP直接通信,当使用SSL时,先由http和SSL通信,再由SSL和TCP通信
SSL是独立于http的协议,其他应用层的如SMTP何Telnet等协议都可以配合SSL进行使用
3、加密技术
SSL采用公开密钥加密(Public-key cryptography)的加密处理方式,加密方法中加密算法是公开的,但密钥是保密的,以保持加密方法的安全性(密钥用来对已经加密的内容进行解密)
加密和解密通用一个密钥的方式称为共享密钥加密(Common key crypto system),也称为对称密钥加密
公开密钥加密方式:
公开密钥加密使用一对非对称密钥,一把叫做私有密钥(private key),一把叫做公开密钥(public key)
过程:发送密文的一方使用对方公开的密钥进行加密,对方收到被加密信息后,使用自己的私有密钥进行解密(要想根据密文和公开密钥解密,理论上可以,但实际操作起来,非常困难)
HTTPS采用混合加密机制
https采用共享密钥加密和公开密钥加密两者并用的混合加密机制。若密钥可实现安全交换,则可能仅使用公开密钥加密(公开密钥加密相比共享密钥加密,速度较慢)
实际运用中应该合理运用两种加密机制的优势,组合起来进行通信(交换密钥环节利用公开密钥加密方式,建立通信交换报文阶段使用共享加密机制)
4、证书
由数字证书认证机构(CA:Certificate Authority)和其他相关机关颁发的公开密钥证书
处于客户端和服务器双方都可信赖的第三方机构立场,对通过申请的服务器公开密钥做数字签名,分配该公开密钥,将其与共钥证书绑定,然后服务器传给客户端,以进行公开密钥加密方式通信;
收到证书的客户端使用数字证书认证机构的公开密钥,对服务器证书的数字签名进行认证,然后明确2点:
①.认证服务器的公开密钥是真实有效的数字证书认证机构
②.服务器的公开密钥是指的信赖的
作用:
①.证明通信方的服务器是否规范
②.确认对方服务器背后运营的企业是否真实存在(拥有该功能的证书就是EV SSL证书:Extended Validation SSL Cetificate );特点:浏览器背景色是绿色的
5、HTTPS安全通信机制
HTTPS通信过程:
①.客户端发送Client Hello报文开始通信,报文中包含客户端支持的SSL指定版本、加密组件、列表等
②.服务器接收到请求报文时,在响应报文中包含SSL版本以及加密组件发送Server Hello(加密组件内容从接收到的客户端加密组件中筛选出来)
然后服务器发送Certificate报文,其中包含公开密钥证书
最后服务器发送Server Hello Done报文通知客户端,最初阶段的SSL握手协商部分结束
③.第一次握手结束,客户端Client Key Exchange报文回应,报文中包含通信加密中使用的一种名为Pre-master sercet的随机密码串(该报文已用上一步骤的公开密钥进行加密)
接着客户端你继续发送Change Cipher Spec报文,该报文提示服务器,在此报文之后的通信采用Pre-master sercet密钥加密
最后客户端发送Finished报文;该报文包含通信连接至今全部报文的整体校验值(这次握手能否成功,以服务器是否可以正确解密报文为判断标准)
④.服务器同样发送Change Cipher Spec报文
服务器同样发送Finisher报文
⑤.服务器和客户端Finished报文交换完成后,SSL连接完成,通信收到SSL保护,
⑥.应用层协议开始通信,即HTTP请求
⑦.最后由客户端断开连接;断开连接时,发送close_notify报文,然后发送TCP FIN报文关闭与TCP的通信
上面的通信过程中,应用层发送数据时会附加MAC(Message Authentication Code)报文摘要,MAC可查询报文是否遭受篡改,保护报文完整性
通信流程图(服务器公开密钥证书建立HTTPS的过程)
HTTPS使用SSL(Secure Socket Layer:安全套接字层)和TLS(Transport Layer Security:安全层传输协议)这两种协议
△ :使用SSL时,处理速度回变慢
①.通信慢:通信时候大量消耗CPU及内存资源,相比较HTTP而已,网络负载可能变慢2-100倍(通信量增加)
②.加密处理:在服务器和客户端都要进行加密和解密,更多的消耗了服务器和客户端硬件资源,导致负载增强
改善方案:使用SSL加速器(专用服务器),为SSL通信专硬件,可以提高数倍SSL计算你速度,仅在SSL通信处理时发挥作用,以分担负载。
扩展阅读:美图HTTPS优化探索与实践