HTTP协议详细介绍

http协议的由来

既然TCP/UDP是广泛使用的网络通信协议，那为啥有多出个http协议来呢？

笔者曾自己动手写过一个简单的web服务器处理软件，根据我的推断（不一定准确）。UDP协议具有不可靠性和不安全性，显然这很难满足web应用的需要。

而TCP协议是基于连接和三次握手的，虽然具有可靠性，但人具有一定的缺陷。但试想一下，普通的C/S架构软件，顶多上千个Client同时连接，而B/S架构的网站，十万人同时在线也是很平常的事儿。如果十万个客户端和服务器一直保持连接状态，那服务器如何满足承载呢？

这就衍生出了http协议。基于TCP的可靠性连接。通俗点说，就是在请求之后，服务器端立即关闭连接、释放资源。这样既保证了资源可用，也吸取了TCP的可靠性的优点。

正因为这点，所以大家通常说http协议是“无状态”的，也就是“服务器不知道你客户端干了啥”，其实很大程度上是基于性能考虑的。以至于后来有了session之类的玩意

什么是http协议

HTTP（HyperText Transport Protocol）是超文本传输协议
基于TCP/IP协议基础上的应用层协议，底层实现仍为socket
基于请求-响应模式：通信一定是从客户端开始，服务器端接收到客户端一定会做出对应响应
无状态：协议不对任何一次通信状态和任何数据做保存
无连接：一次连接只完成一次请求-响应，请求-响应完毕后会立即断开连接

http工作原理（事务）

一次http操作称之为一个事务，工作过程可分为四步

1.客户端与服务端建立连接
2.客户端发生一个http协议指定格式的请求
3.服务器端接收请求后，回应一个http协议指定格式的响应
4.客户端将服务器的响应显示展现给用户

状态码特点

1打头：消息通知
2打头：请求成功
3打头：重定向
4打头：客户端错误
5打头：服务器端错误

实战准备

在监视网络方面，windows平台上有一款叫做Sniffer的优秀软件，这也是很多“黑客”经常使用的嗅探工具。在研究http协议时，推荐大家使用一款

叫作httpwatch的工具。（遗憾的是，该工具是收费的。该咋办就咋办，你懂的）。安装完成后，可以在IE浏览器的tools中直接打开（目前也支持firefox）。如图所示

点击Record，就可以开始监视并记录http消息了。stop、Clear等等按钮的功能，这里就不一一介绍了。拿实例来说话，下面就是我记录访问main.aspx页面的时候记录的，能够清晰的看到http报文消息的详细信息，如图：

学习http协议，主要需要了解http的请求和响应（当然，还有get、post等请求方式，状态码、URI、MIME等）

HTTP请求协议

请求协议遵照以下格式

请求首行；        // 请求方式 请求路径 协议和版本，例如：GET /index.html HTTP/1.1
请求头信息；      // 请求头名称:请求头内容，即为key:value格式，例如：Host:localhost
空行；           // 用来与请求体分隔开
请求体。         // GET没有请求体，只有POST有请求体。

浏览器发送给服务器的内容就这个格式的，如果不是这个格式服务器将无法解读！在HTTP协议中，请求有很多请求方法，其中最为常用的就是GET和POST。

get请求

GET /562f25980001b1b106000338.jpg HTTP/1.1
Host    img.mukewang.com
User-Agent    Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36
Accept    image/webp,image/*,*/*;q=0.8
Referer    http://www.imooc.com/
Accept-Encoding    gzip, deflate, sdch
Accept-Language    zh-CN,zh;q=0.8

HTTP默认的请求方法就是GET
* 没有请求体
* 数据量有限制！
* GET请求数据会暴露在浏览器的地址栏中

GET请求常用的操作：
1. 在浏览器的地址栏中直接给出URL，那么就一定是GET请求
2. 点击页面上的超链接也一定是GET请求
3. 提交表单时，表单默认使用GET请求，但可以设置为POST

请求头

请求头（消息头）包含（客户机请求的服务器主机名，客户机的环境信息等）：

Accept：用于告诉服务器，客户机支持的数据类型  （例如：Accept:text/html,image/*）
Accept-Charset：用于告诉服务器，客户机采用的编码格式
Accept-Encoding：用于告诉服务器，客户机支持的数据压缩格式
Accept-Language：客户机语言环境
Host:客户机通过这个服务器，想访问的主机名
If-Modified-Since：客户机通过这个头告诉服务器，资源的缓存时间
Referer：客户机通过这个头告诉服务器，它（客户端）是从哪个资源来访问服务器的（防盗链）
User-Agent：客户机通过这个头告诉服务器，客户机的软件环境（操作系统，浏览器版本等）
Cookie：客户机通过这个头，将Coockie信息带给服务器
Connection：告诉服务器，请求完成后，是否保持连接
Date：告诉服务器，当前请求的时间
Content-Type：显示此HTTP请求提交的内容类型。一般只有post提交时才需要设置该属性
有关Content-Type属性值有如下两种编码类型：
（1）“application/x-www-form-urlencoded”： 表单数据向服务器提交时所采用的编码类型，默认的缺省值就是“application/x-www-form-urlencoded”。 然而，在向服务器发送大量的文本、包含非ASCII字符的文本或二进制数据时这种编码方式效率很低。
（2）“multipart/form-data”： 在文件上载时，所使用的编码类型应当是“multipart/form-data”，它既可以发送文本数据，也支持二进制数据上载。 当提交为表单数据时，可以使用“application/x-www-form-urlencoded”；当提交的是文件时，就需要使用“multipart/form-data”编码类型。

空行
实体内容：
就是指浏览器端通过http协议发送给服务器的实体数据。例如：name=dylan&id=110
（get请求时，通过url传给服务器的值。post请求时，通过表单发送给服务器的值）

post请求

POST / HTTP1.1
Host:www.wrox.com
User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)
Content-Type:application/x-www-form-urlencoded
Content-Length:40
Connection: Keep-Alive

name=Professional%20Ajax&publisher=Wiley

HTTP响应协议

响应格式

一般情况下，服务器接收并处理客户端发过来的请求后会返回一个HTTP的响应消息。

HTTP响应也由四个部分组成，分别是：状态行、消息报头、空行和响应正文。

http响应消息格式.jpg

例子

HTTP/1.1 200 OK
Date: Fri, 22 May 2009 06:07:21 GMT
Content-Type: text/html; charset=UTF-8

<html>
      <head></head>
      <body>
            <!--body goes here-->
      </body>
</html>

第一部分：状态行，由HTTP协议版本号，状态码，状态消息三部分组成。

第一行为状态行，（HTTP/1.1）表明HTTP版本为1.1版本，状态码为200，状态消息为（ok）

第二部分：消息报头，用来说明客户端要使用的一些附加信息

Location：这个头配合302状态吗，用于告诉客户端找谁
Server：服务器通过这个头，告诉浏览器服务器的类型
Content-Encoding：告诉浏览器，服务器的数据压缩格式
Content-Length：告诉浏览器，回送数据的长度
Content-Type：告诉浏览器，回送数据的类型
Last-Modified：告诉浏览器当前资源缓存时间
Refresh：告诉浏览器，隔多长时间刷新
Content-Disposition：告诉浏览器以下载的方式打开数据。例如： context.Response.AddHeader("Content-Disposition","attachment:filename=aa.jpg");                                        context.Response.WriteFile("aa.jpg");
Transfer-Encoding：告诉浏览器，传送数据的编码格式
ETag：缓存相关的头（可以做到实时更新）
Expries：告诉浏览器回送的资源缓存多长时间。如果是-1或者0，表示不缓存
Cache-Control：控制浏览器不要缓存数据   no-cache
Pragma：控制浏览器不要缓存数据          no-cache

Connection：响应完成后，是否断开连接。  close/Keep-Alive
Date：告诉浏览器，服务器响应时间

第三部分：空行，消息报头后面的空行是必须的

第四部分：响应正文，服务器返回给客户端的文本信息。

响应包含浏览器能够解析的静态内容，例如：html，纯文本，图片等等信息（例如空行后面的html部分为响应正文）

响应状态码

常见状态码：

200 OK                        //客户端请求成功
400 Bad Request               //客户端请求有语法错误，不能被服务器所理解
401 Unauthorized              //请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用 
403 Forbidden                 //服务器收到请求，但是拒绝提供服务
404 Not Found                 //请求资源不存在，eg：输入了错误的URL
500 Internal Server Error     //服务器发生不可预期的错误
503 Server Unavailable        //服务器当前不能处理客户端的请求，一段时间后可能恢复正常

理解了以上的http请求消息和响应消息，相信你对于http协议已经理解得足够深刻了。关于http协议的更多具体细节，可以参照http RFC文档。

大致步骤就是：浏览器先向服务器发送请求，服务器接收到请求后，做相应的处理，然后封装好响应报文，再回送给浏览器。浏览器拿到响应报文后，再通过浏览器引擎去渲染网页，解析DOM树，javascript引擎解析并执行脚本操作，插件去干插件该干的事儿...关于浏览器渲染、解析的原理，可以参考http://kb.cnblogs.com/page/129756/

说白了，所谓web的本质，无非是：请求/处理/响应，任何的web服务器，任何的服务端编程语言，都没法脱离这个本质。而浏览器端解析html、图片等静态内容，呈现给用户，脚本引擎执行脚本代码，完成脚本代码要做的事儿（例如dom操作，css属性更改，发送ajax请求等等）

GET和POST请求的区别

简单来说：get请求是向浏览器要东西，post请求是向浏览器发东西。（简单粗暴）
GET请求

GET /books/?sex=man&name=Professional HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Connection: Keep-Alive

注意最后一行是空行
POST请求

POST / HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Content-Type: application/x-www-form-urlencoded
Content-Length: 40
Connection: Keep-Alive

name=Professional%20Ajax&publisher=Wiley

1、GET提交，请求的数据会附在URL之后（就是把数据放置在HTTP协议头中），以?分割URL和传输数据，多个参数用&连接；例如：login.action?name=hyddd&password=idontknow&verify=%E4%BD%A0 %E5%A5%BD。如果数据是英文字母/数字，原样发送，如果是空格，转换为+，如果是中文/其他字符，则直接把字符串用BASE64加密，得出如： %E4%BD%A0%E5%A5%BD，其中％XX中的XX为该符号以16进制表示的ASCII。

POST提交：把提交的数据放置在是HTTP包的包体中。上文示例中红色字体标明的就是实际的传输数据

因此，GET提交的数据会在地址栏中显示出来，而POST提交，地址栏不会改变。

2、传输数据的大小：首先声明：HTTP协议没有对传输的数据大小进行限制，HTTP协议规范也没有对URL长度进行限制。

而在实际开发中存在的限制主要有：

GET:特定浏览器和服务器对URL长度有限制，例如 IE对URL长度的限制是2083字节(2K+35)。对于其他浏览器，如Netscape、FireFox等，理论上没有长度限制，其限制取决于操作系统的支持。

因此对于GET提交时，传输数据就会受到URL长度的限制。

POST:由于不是通过URL传值，理论上数据不受限。但实际各个WEB服务器会规定对post提交数据大小进行限制，Apache、IIS6都有各自的配置。

GET和POST的区别

GET提交的数据会放在URL之后，以?分割URL和传输数据，参数之间以&相连，如EditPosts.aspx?name=test1&id=123456. POST方法是把提交的数据放在HTTP包的Body中.
GET提交的数据大小有限制（因为浏览器对URL的长度有限制），而POST方法提交的数据没有限制.
GET方式需要使用Request.QueryString来取得变量的值，而POST方式通过Request.Form来获取变量的值。
GET方式提交数据，会带来安全问题，比如一个登录页面，通过GET方式提交数据时，用户名和密码将出现在URL上，如果页面可以被缓存或者其他人可以访问这台机器，就可以从历史记录获得该用户的账号和密码

posted @ 2019-01-03 21:05 鲸鱼的海老大阅读(380) 评论(0) 编辑收藏举报

刷新页面返回顶部

不积跬步无以至千里

HTTP协议详细介绍

http协议的由来

什么是http协议

http工作原理（事务）

状态码特点

实战准备

HTTP请求协议

get请求

请求头

post请求

HTTP响应协议

响应格式

例子

第一部分：状态行，由HTTP协议版本号，状态码，状态消息三部分组成。

第二部分：消息报头，用来说明客户端要使用的一些附加信息

第三部分：空行，消息报头后面的空行是必须的

第四部分：响应正文，服务器返回给客户端的文本信息。

响应状态码

GET和POST请求的区别

公告

不积跬步无以至千里

HTTP协议详细介绍

http协议的由来

什么是http协议

http工作原理（事务）

状态码特点

实战准备

HTTP请求协议

get请求

请求头

post请求

HTTP响应协议

响应格式

例子

第一部分：状态行，由HTTP协议版本号， 状态码， 状态消息 三部分组成。

第二部分：消息报头，用来说明客户端要使用的一些附加信息

第三部分：空行，消息报头后面的空行是必须的

第四部分：响应正文，服务器返回给客户端的文本信息。

响应状态码

GET和POST请求的区别

公告

第一部分：状态行，由HTTP协议版本号，状态码，状态消息三部分组成。