HTTP协议和HTML规范
----众所周知,Internet的底层通信协议是 TCP/IP协议,在Internet上传送的数据被划分为一个个的IP数据报,每一个IP数据报都指明信源和信宿的地址,沿途的网关按照信宿地址决定数 据报的去向。而TCP协议则为通信的双方建立一条虚电路,保证所有的数据报都能按正确的次序到达目的地。TCP/IP只是实现计算机之间的二进制数据传 输,对这些数据如何解释,则是上层协议的事情。开发web应用程序的程序员并不需要过问TCP/IP的工作,我们所必须了解的是其上层协议HTTP。
----HTTP是一个应用层协议,目前广泛应用于web浏览器和web服务器之间的通信。HTTP用字符串进行通信,所传送的信息称为HTTP消息 (HTTP-Message)。HTTP消息有两种类型:浏览器传送给服务器的请求消息和服务器传送给浏览器的响应消息,其基本格式如下:请求消息:
MethodRequest-URIHTTP-Version;请求行
general-header;通用消息头
request-header;请求消息头
entity-header;实体消息头
;空行
message-body;消息实体
其中三种消息头的次序是任意的。
响应消息:
HTTP-VersionStatus-CodeReason-Phrase;状态行
general-header;通用消息头
response-header;响应消息头
entity-header;实体消息头
;空行
message-body;消息实体
----其中三种消息头的次序同样是任意的。
----对于请求消息,请求行是必不可少的,其余部分是可选的。请求行中的Method(方法)指定具体的请求操作,这些方法是HTTP指定的,常用的方法有:
----GET浏览器要求从服务器处获得信息。
----HEAD作用等同于GET但是服务器在响应时不必返回消息实体。通常用来
----测试信息资源是否可用,是否已更改。
----POST浏览器向服务器传送信息。
----PUT浏览器要求将消息中所包含的消息实体写入服务器。
----请求行中的Request-URI是信息资源的定位符,类似于我们通常所说的"网址",但网址通常是指某个网点IP地址对应的域名,而URI则要 进一步指明网址下的路径、网页文件名、web应用程序名等信息资源。请求行中的HTTP-Version则指明浏览器所能执行的HTTP协议版本号,多数 是1.0或1.1。例如,当我们要求访问某个abc公司网址www.abc.com上的网页xyz.htm时,浏览器将会发出如下请求行:
----GEThttp://www.abc.com/xyz.htmHTTP/1.0
----请求消息中的通用消息头、请求消息头和实体消息头的一般格式是
----field-name:field-value
----也就是说,消息头由多个字段(field)组成,每个字段一行(HTTP用回车换行符CRLF作为每一行的结束标志),每行由字段名和字段值组 成,彼此用冒号隔开。HTTP对于每一个字段的意义及其对应的值都有详细的规定。可供使用的字段很多,但并不是每次发送请求消息都要使用所有的字段,而是 根据需要使用其中的若干个。以下是一个请求消息的具体例子:
GET/default.htmHTTP/1.0
Host:http://default
Accept:text/html
User-Agent:Mozilla/2.0
(compatible;NEWTActiveX;Win32)
对于请求消息,常用的字段有:
通用消息头:Cache-Control、Connection、Date
请求消息头:Accept、Authorization、
From、Host、If-Modified-Since、
Referer、User-Agent
实体消息头:Content-Encoding、
Content-Length、Content-Type、EXPires
----限于篇幅,本文无法详细解释每一个字段的含义,有兴趣的读者可参阅参考文献[1]。
----请求消息中的消息实体(Message-Body)是浏览器要传送给服务器的数据。使用GET方法的请求消息一般不会有消息实体,而POST和PUT方法则一般会有消息实体,其具体内容可以是任何数据,由实体消息头中的字段指明其编码方式、类型和长度。
----对于响应消息,开头的状态行是必不可少的,其中开头的HTTP版本号(HTTP-Version)指明服务器所执行的HTTP协议是哪个版本的, 然后是由3位数字组成的状态码(Status-Code),说明对浏览器请求消息的响应状态,最后的原因短语(Reason-Phrase)是对状态码的 简短文字说明。
----状态码的第一位数字定义响应状态的类型,可能的数值及其含义如下:
1xx:已接收到请求消息,正在处理中。
2xx:对接收到的请求消息已成功地作出响应。
3xx:必须采取进一步的行动才能完成请求。例如,请求消息中的URI对应多个资源,或请求消息要访问的资源的URI已改变,或必须通过代理服务器才能访问等。
4xx:浏览器错误,请求消息语法错误或请求无法执行。
5xx:服务器错误,服务器无法执行一个有效的请求。响应消息的状态行之后是与请求消息类似的、由各种字段名和字段值组成的消息头,对于响应消息,常用的字段有:
----通用消息头:Date
----响应消息头:Server、www-Authenticate、Location
----实体消息头:Allow、Content-Encoding、Content-Length、Content-Type、
----Expires、Last-Modified
----响应消息最后的实体(Message-Body)部分是服务器按照浏览器的请求传送回来的数据,最常见的情况就是一个网页文件的内容。以下是一个响应消息的具体例子,最后一行是消息实体:
HTTP/1.0200OK
Server:Microsoft-PWS-95/2.0
Date:Thu,15Oct199807:40:14GMT
Content-Type:text/html
Content-Length:21
Content:
Hi,gladtomeetyou!
----通常,上述消息通信过程是由用户浏览某个网页而发起的。网页是一个按照HTML规范编写的纯文本文件,其基本框架结构如下:
<HTML>
<HEAD>
<T99vLE>网页标题</T99vLE>
</HEAD>
<BODY>
......(网页的具体内容)
</BODY>
</HTML>
----关于HTML规范的详细内容,可参见参考文献[2]。其实,我们完全可以通过实验方法来掌握这个规范。利用一些网页编辑软件(例如 Microsoft的FrontPage)可以直观地设计页面,然后观察所生成的HTML文本,便可以轻而易举地学会编写HTML文件。
----在每个网点上都有一个默认网页,当用户在浏览器上指定一个网点的网址时,浏览器向该网址上的web服务器发出一个请求消息,其中的URI即为该网 点web服务器的根目录。web服务器接收到这个消息后,认为默认网页就是用户需要的信息资源并将之传送给浏览器。网页上包含各种链接,其基本格式是:
----<Ahref="URI">说明文字</A>
----当用户点击这些链接时,就有可能启动浏览器与服务器的再次通信。链接中的URI可能是同一个网页中的某个节点,或者是另一个网点的网址,或者是网 点上的某一个网页或其它已存放在网点服务器上的文件。这些都由web服务器自动作出响应,不需要web应用程序的介入。对于编写web应用程序的程序员, 所关心的是一种称为"查询"(Query)的链接,例如,在网页中设计如下链接:
----<Ahref=http://www.Tside.com/Scripts/handll.dll?MyQuery>查询服务器</A>当用户点击这个链接时,浏览器将会向服务器发出类似于如下的请求消息
----GET/Scripts/handll.dll?MyQueryHTTP/1.0
----Host:http://www.Tside.com网点www.Tside.com上的web服务器接收到这样的请求消息后,将会向web服务器根目录下的子目录Scripts下的web应用程序handll.dll传送查询字串"MyQuery",由web应用程序作出响应。