Http-Header解析

转载自：http://www.cnblogs.com/meil/archive/2007/03/06/665843.html

　　　　http://thobian.info/?p=318　　(繁体字)

HTTP（HyperTextTransferProtocol）是超文本传输协议的缩写，它用于传送WWW方式的数据，关于HTTP协议的详细内容请参考RFC2616。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求，请求头包含请求的方法、URI、协议版本、以及包含请求修饰符、客户信息和内容的类似于MIME的消息结构。服务器以一个状态行作为响应，相应的内容包括消息协议的版本，成功或者错误编码加上包含服务器信息、实体元信息以及可能的实体内容。

通常HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息。这两种类型的消息由一个起始行，一个或者多个头域，一个只是头域结束的空行和可选的消息体组成。HTTP的头域包括通用头，请求头，响应头和实体头四个部分。每个头域由一个域名，冒号（:）和域值三部分组成。域名是大小写无关的，域值前可以添加任何数量的空格符，头域可以被扩展为多行，在每行开始处，使用至少一个空格或制表符。

通用头域

通用头域包含请求和响应消息都支持的头域，通用头域包含Cache-Control、 Connection、Date、Pragma、Transfer-Encoding、Upgrade、Via。对通用头域的扩展要求通讯双方都支持此扩展，如果存在不支持的通用头域，一般将会作为实体头域处理。下面简单介绍几个在UPnP消息中使用的通用头域。

Cache-Control头域

Cache- Control指定请求和响应遵循的缓存机制。在请求消息或响应消息中设置 Cache-Control并不会修改另一个消息处理过程中的缓存处理过程。请求时的缓存指令包括no-cache、no-store、max-age、 max-stale、min-fresh、only-if-cached，响应消息中的指令包括public、private、no-cache、no- store、no-transform、must-revalidate、proxy-revalidate、max-age。各个消息中的指令含义如下：

Public指示响应可被任何缓存区缓存。

Private指示对于单个用户的整个或部分响应消息，不能被共享缓存处理。这允许服务器仅仅描述当用户的部分响应消息，此响应消息对于其他用户的请求无效。

no-cache指示请求或响应消息不能缓存

no-store用于防止重要的信息被无意的发布。在请求消息中发送将使得请求和响应消息都不使用缓存。

max-age指示客户机可以接收生存期不大于指定时间（以秒为单位）的响应。

min-fresh指示客户机可以接收响应时间小于当前时间加上指定时间的响应。

max-stale指示客户机可以接收超出超时期间的响应消息。如果指定max-stale消息的值，那么客户机可以接收超出超时期指定值之内的响应消息。

Date头域

Date头域表示消息发送的时间，时间的描述格式由rfc822定义。例如，Date:Mon,31Dec200104:25:57GMT。Date描述的时间表示世界标准时，换算成本地时间，需要知道用户所在的时区。

Pragma头域

Pragma头域用来包含实现特定的指令，最常用的是Pragma:no-cache。在HTTP/1.1协议中，它的含义和Cache- Control:no-cache相同。

请求消息

请求消息的第一行为下面的格式：

MethodSPRequest-URISPHTTP-VersionCRLFMethod 表示对于Request-URI完成的方法，这个字段是大小写敏感的，包括OPTIONS、GET、HEAD、POST、PUT、DELETE、 TRACE。方法GET和HEAD应该被所有的通用WEB服务器支持，其他所有方法的实现是可选的。GET方法取回由Request-URI标识的信息。 HEAD方法也是取回由Request-URI标识的信息，只是可以在响应时，不返回消息体。POST方法可以请求服务器接收包含在请求中的实体信息，可以用于提交表单，向新闻组、BBS、邮件群组和数据库发送消息。

SP表示空格。Request-URI遵循URI格式，在此字段为星号（*）时，说明请求并不用于某个特定的资源地址，而是用于服务器本身。HTTP- Version表示支持的HTTP版本，例如为HTTP/1.1。CRLF表示换行回车符。请求头域允许客户端向服务器传递关于请求或者关于客户机的附加信息。请求头域可能包含下列字段Accept、Accept-Charset、Accept- Encoding、Accept-Language、Authorization、From、Host、If-Modified-Since、If- Match、If-None-Match、If-Range、If-Range、If-Unmodified-Since、Max-Forwards、 Proxy-Authorization、Range、Referer、User-Agent。对请求头域的扩展要求通讯双方都支持，如果存在不支持的请求头域，一般将会作为实体头域处理。

典型的请求消息：

GET http://download.microtool.de:80/somedata.exe
Host: download.microtool.de
Accept:*/*
Pragma: no-cache
Cache-Control: no-cache
Referer: http://download.microtool.de/
User-Agent:Mozilla/4.04[en](Win95;I;Nav)
Range:bytes=554554-

上例第一行表示HTTP客户端（可能是浏览器、下载程序）通过GET方法获得指定URL下的文件。棕色的部分表示请求头域的信息，绿色的部分表示通用头部分。

Host头域

Host头域指定请求资源的Intenet主机和端口号，必须表示请求url的原始服务器或网关的位置。HTTP/1.1请求必须包含主机头域，否则系统会以400状态码返回。

Referer头域

Referer 头域允许客户端指定请求uri的源资源地址，这可以允许服务器生成回退链表，可用来登陆、优化cache等。他也允许废除的或错误的连接由于维护的目的被追踪。如果请求的uri没有自己的uri地址，Referer不能被发送。如果指定的是部分uri地址，则此地址应该是一个相对地址。

Range头域

Range头域可以请求实体的一个或者多个子范围。例如，

表示头500个字节：bytes=0-499

表示第二个500字节：bytes=500-999

表示最后500个字节：bytes=-500

表示500字节以后的范围：bytes=500-

第一个和最后一个字节：bytes=0-0,-1

同时指定几个范围：bytes=500-600,601-999

但是服务器可以忽略此请求头，如果无条件GET包含Range请求头，响应会以状态码206（PartialContent）返回而不是以200 （OK）。

User-Agent头域

User-Agent头域的内容包含发出请求的用户信息。

响应消息

响应消息的第一行为下面的格式：

HTTP-VersionSPStatus-CodeSPReason-PhraseCRLF

HTTP- Version表示支持的HTTP版本，例如为HTTP/1.1。Status- Code是一个三个数字的结果代码。Reason-Phrase给Status-Code提供一个简单的文本描述。Status-Code主要用于机器自动识别，Reason-Phrase主要用于帮助用户理解。Status-Code的第一个数字定义响应的类别，后两个数字没有分类的作用。第一个数字可能取5个不同的值：

1xx:信息响应类，表示接收到请求并且继续处理

2xx:处理成功响应类，表示动作被成功接收、理解和接受

3xx:重定向响应类，为了完成指定的动作，必须接受进一步处理

4xx:客户端错误，客户请求包含语法错误或者是不能正确执行

5xx:服务端错误，服务器不能正确执行一个正确的请求

响应头域允许服务器传递不能放在状态行的附加信息，这些域主要描述服务器的信息和 Request-URI进一步的信息。响应头域包含Age、Location、Proxy-Authenticate、Public、Retry- After、Server、Vary、Warning、WWW-Authenticate。对响应头域的扩展要求通讯双方都支持，如果存在不支持的响应头域，一般将会作为实体头域处理。

典型的响应消息：

HTTP/1.0200OK

Date:Mon,31Dec200104:25:57GMT

Server:Apache/1.3.14(Unix)

Content-type:text/html

Last-modified:Tue,17Apr200106:46:28GMT

Etag:"a030f020ac7c01:1e9f"

Content-length:39725426

Content-range:bytes554554-40279979/40279980

上例第一行表示HTTP服务端响应一个GET方法。棕色的部分表示响应头域的信息，绿色的部分表示通用头部分，红色的部分表示实体头域的信息。

Location响应头

Location响应头用于重定向接收者到一个新URI地址。

Server响应头

Server响应头包含处理请求的原始服务器的软件信息。此域能包含多个产品标识和注释，产品标识一般按照重要性排序。

实体

请求消息和响应消息都可以包含实体信息，实体信息一般由实体头域和实体组成。实体头域包含关于实体的原信息，实体头包括Allow、Content- Base、Content-Encoding、Content-Language、 Content-Length、Content-Location、Content-MD5、Content-Range、Content-Type、 Etag、Expires、Last-Modified、extension-header。extension-header允许客户端定义新的实体头，但是这些域可能无法未接受方识别。实体可以是一个经过编码的字节流，它的编码方式由Content-Encoding或Content-Type定义，它的长度由Content-Length或Content-Range定义。

Content-Type实体头

Content-Type实体头用于向接收方指示实体的介质类型，指定HEAD方法送到接收方的实体介质类型，或GET方法发送的请求介质类型 Content-Range实体头

Content-Range实体头用于指定整个实体中的一部分的插入位置，他也指示了整个实体的长度。在服务器向客户返回一个部分响应，它必须描述响应覆盖的范围和整个实体长度。一般格式：

Content-Range:bytes-unitSPfirst-byte-pos-last-byte-pos/entity-legth

例如，传送头500个字节次字段的形式：Content-Range:bytes0- 499/1234如果一个http消息包含此节（例如，对范围请求的响应或对一系列范围的重叠请求），Content-Range表示传送的范围， Content-Length表示实际传送的字节数。

Last-modified实体头

Last-modified实体头指定服务器上保存内容的最后修订时间。

应答头	说明
Allow	服务器支持哪些请求方法（如GET、POST等）。
Content-Encoding	文档的编码（Encode）方法。只有在解码之后才可以得到Content-Type头指定的内容类型。利用gzip压缩文档能够显著地减少HTML文档的下载时间。Java的GZIPOutputStream可以很方便地进行gzip压缩，但只有Unix上的 Netscape和Windows上的IE 4、IE 5才支持它。因此，Servlet应该通过查看Accept-Encoding头（即request.getHeader("Accept- Encoding")）检查浏览器是否支持gzip，为支持gzip的浏览器返回经gzip压缩的HTML页面，为其他浏览器返回普通页面。
Content-Length	表示内容长度。只有当浏览器使用持久HTTP连接时才需要这个数据。如果你想要利用持久连接的优势，可以把输出文档写入 ByteArrayOutputStram，完成后查看其大小，然后把该值放入Content-Length头，最后通过 byteArrayStream.writeTo(response.getOutputStream()发送内容。
Content-Type	表示后面的文档属于什么MIME类型。Servlet默认为text/plain，但通常需要显式地指定为text/html。由于经常要设置Content-Type，因此HttpServletResponse提供了一个专用的方法setContentTyep。
Date	当前的GMT时间。你可以用setDateHeader来设置这个头以避免转换时间格式的麻烦。
Expires	应该在什么时候认为文档已经过期，从而不再缓存它？
Last-Modified	文档的最后改动时间。客户可以通过If-Modified-Since请求头提供一个日期，该请求将被视为一个条件 GET，只有改动时间迟于指定时间的文档才会返回，否则返回一个304（Not Modified）状态。Last-Modified也可用setDateHeader方法来设置。
Location	表示客户应当到哪里去提取文档。Location通常不是直接设置的，而是通过HttpServletResponse的sendRedirect方法，该方法同时设置状态代码为302。
Refresh	表示浏览器应该在多少时间之后刷新文档，以秒计。除了刷新当前文档之外，你还可以通过setHeader("Refresh", "5; URL=http://host/path")让浏览器读取指定的页面。注意这种功能通常是通过设置HTML页面HEAD区的＜META HTTP-EQUIV="Refresh" CONTENT="5;URL=http://host/path"＞实现，这是因为，自动刷新或重定向对于那些不能使用CGI或Servlet的 HTML编写者十分重要。但是，对于Servlet来说，直接设置Refresh头更加方便。注意Refresh的意义是“N秒之后刷新本页面或访问指定页面”，而不是“每隔N秒刷新本页面或访问指定页面”。因此，连续刷新要求每次都发送一个Refresh头，而发送204状态代码则可以阻止浏览器继续刷新，不管是使用Refresh头还是＜META HTTP-EQUIV="Refresh" ...＞。注意Refresh头不属于HTTP 1.1正式规范的一部分，而是一个扩展，但Netscape和IE都支持它。
Server	服务器名字。Servlet一般不设置这个值，而是由Web服务器自己设置。
Set-Cookie	设置和页面关联的Cookie。Servlet不应使用response.setHeader("Set-Cookie", ...)，而是应使用HttpServletResponse提供的专用方法addCookie。参见下文有关Cookie设置的讨论。
WWW-Authenticate	客户应该在Authorization头中提供什么类型的授权信息？在包含401（Unauthorized）状态行的应答中这个头是必需的。例如，response.setHeader("WWW-Authenticate", "BASIC realm=＼"executives＼"")。注意Servlet一般不进行这方面的处理，而是让Web服务器的专门机制来控制受密码保护页面的访问（例如.htaccess）。

HTTP Headers是HTTP請求和相應的核心，它承載了關於用戶端流覽器，請求頁面，伺服器等相關的資訊。

示例

當你在流覽器位址欄裏鍵入一個url，你的流覽器會將類似如下的http請求：

GET /tutorials/other/top-20-mysql-best-practices/ HTTP/1.1 (Request line)
Host: net.tutsplus.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive
Cookie: PHPSESSID=r2t5uvjq435r4q7ib3vtdjq120
Pragma: no-cache
Cache-Control: no-cache

第一行被稱為“Request Line” 它描述的是這個請求的基本資訊，剩下的就是HTTP headers了。

請求完成之後，你的流覽器可能會收到如下的HTTP回應：

HTTP/1.x 200 OK (state line)
Transfer-Encoding: chunked
Date: Sat, 28 Nov 2009 04:36:25 GMT
Server: LiteSpeed
Connection: close
X-Powered-By: W3 Total Cache/0.8
Pragma: public
Expires: Sat, 28 Nov 2009 05:36:25 GMT
Etag: "pub1259380237;gz"
Cache-Control: max-age=3600, public
Content-Type: text/html; charset=UTF-8
Last-Modified: Sat, 28 Nov 2009 03:50:37 GMT
X-Pingback: http://net.tutsplus.com/xmlrpc.php
Content-Encoding: gzip
Vary: Accept-Encoding, Cookie, User-Agent
<!-- ... rest of the html ... -->

第一行被稱為“Status Line”，它之後就是http headers，空行完了就開始輸出內容了（在這個案例中是一些html輸出）。

但你查看頁面源代碼卻不能看到HTTP headers，雖然它們連同你能看到的東西一起被傳送至流覽器。

這個HTTP請求也發出了一些其他資源的接收請求，例如圖片，css檔，js文件等等。

下面我們來看看細節。

怎樣才能看到HTTP Headers

下面這些FireFox擴展能夠幫助你分析HTTP headers：

1. firebug

2.Live HTTP Headers

3. 在PHP中：

getallheaders() 用來獲取請求Header. 你也可以使用 $_SERVER 陣列.
headers_list() 用來獲取回應Header.

文章下面將會看到一些使用php示範的例子。

HTTP Request 的結構

被稱作“first line”的第一行包含三個部分：

“method” 表明這是何種類型的請求. 最常見的請求類型有 GET, POST 和 HEAD.
“path” 體現的是主機之後的路徑. 例如，當你請求 “http://net.tutsplus.com/tutorials/other/top-20-mysql-best-practices/”時 , path 就會是 “/tutorials/other/top-20-mysql-best-practices/”.
“protocol” 包含有 “HTTP” 和版本號, 目前流覽器都會使用1.1.

剩下的部分每行都是一個“Name：Value”對。它們包含了各式各樣關於請求和你流覽器的資訊。

例如”User-Agent“就表明了你流覽器版本和你所用的作業系統。

”Accept-Encoding“會告訴伺服器你的流覽可以接受類似gzip的壓縮輸出。

這些headers大部分都是可選的。HTTP 請求甚至可以被精簡成這樣子：

GET /tutorials/other/top-20-mysql-best-practices/ HTTP/1.1
Host: net.tutsplus.com

並且你仍舊可以從伺服器收到有效的回應。

請求類型

三種最常見的請求類型是：GET，POST 和 HEAD ，從html的編寫過程中你可能已經熟悉了前兩種。

GET：獲取一個文檔

大部分被傳輸到流覽器的html，images，js，css, … 都是通過GET方法發出請求的。它是獲取資料的主要方法。

例如，要獲取Nettuts+ 的文章，http request的第一行通常看起來是這樣的：

GET /tutorials/other/top-20-mysql-best-practices/ HTTP/1.1

一旦html載入完成，流覽器將會發送GET 請求去獲取圖片，就像下面這樣：

GET /wp-content/themes/tuts_theme/images/header_bg_tall.png HTTP/1.1

表單也可以通過GET方法發送，下面是個例子：

當這個表單被提交時，HTTP request 就會像這樣：

GET /foo.php?first_name=John&last_name=Doe&action=Submit HTTP/1.1
…

你可以將表單輸入通過附加進查詢字串的方式發送至伺服器。

POST：發送資料至伺服器

儘管你可以通過GET方法將資料附加到url中傳送給伺服器，但在很多情況下使用POST發送資料給伺服器更加合適。通過GET發送大量資料是不現實的，它有一定的局限性。

用POST請求來發送表單數據是普遍的做法。我們來吧上面的例子改造成使用POST方式：

提交這個表單會創建一個如下的HTTP 請求：

POST /foo.php HTTP/1.1
Host: localhost
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive
Referer: http://localhost/test.php
Content-Type: application/x-www-form-urlencoded
Content-Length: 43
first_name=John&amp;last_name=Doe&amp;action=Submit

這裏有三個需要注意的地方：

第一行的路徑已經變為簡單的 /foo.php , 已經沒了查詢字串。
新增了 Content-Type 和 Content-Lenght Header，它提供了發送資訊的相關資訊.
所有資料都在headers之後，以查詢字串的形式被發送.

POST方式的請求也可用在AJAX，應用程式，cURL … 之上。並且所有的檔上傳表單都被要求使用POST方式。

HEAD：接收Header資訊

HEAD和GET很相似，只不過HEAD不接受HTTP回應的內容部分。當你發送了一個HEAD請求，那就意味著你只對HTTPHeader感興趣，而不是文檔本身。

這個方法可以讓流覽器判斷頁面是否被修改過，從而控制緩存。也可判斷所請求的文檔是否存在。

例如，假如你的網站上有很多鏈結，那麼你就可以簡單的給他們分別發送HEAD請求來判斷是否存在死鏈，這比使用GET要快很多。

http回應結構

當流覽器發送了HTTP請求之後，伺服器就會通過一個HTTP response來回應這個請求。如果不關心內容，那麼這個請求看起來會是這樣的：

第一個有價值的資訊就是協定。目前伺服器都會使用 HTTP/1.x 或者 HTTP/1.1。

接下來一個簡短的資訊代表狀態。代碼200意味著我們的請求已經發送成功了，伺服器將會返回給我們所請求的文檔，在Header資訊之後。

我們都見過“404”頁面。當我向伺服器請求一個不存在的路徑時，伺服器就用用404來代替200回應我們。

餘下的回應內容和HTTP請求相似。這些內容是關於伺服器軟體的，頁面/檔何時被修改過，mime type 等等…

同樣，這些Header資訊也是可選的。

HTTP狀態碼

200 用來表示請求成功.
300 來表示重定向.
400 用來表示請求出現問題.
500 用來表示伺服器出現問題.

200 成功（OK）

前文已經提到，200是用來表示請求成功的。

206 部分內容（Partial Content）

如果一個應用只請求某範圍之內的檔，那麼就會返回206.

這通常被用來進行下載管理，中斷點續傳或者檔分塊下載。

404 沒有找到（Not Found）

很容易理解

401 未經授權（Unauthorized）

受密碼保護的頁面會返回這個狀態。如果你沒有輸入正確的密碼，那麼你就會在流覽器中看到如下的資訊：

注意這只是受密碼保護頁面，請求輸入密碼的彈出框是下面這個樣子的：

403 被禁止（Forbidden）

如果你沒有許可權訪問某個頁面，那麼就會返回403狀態。這種情況通常會發生在你試圖打開一個沒有index頁面的檔夾。如果伺服器設置不允許查看目錄內容，那麼你就會看到403錯誤。

其他一些方式也會發送許可權限制，例如你可以通過IP位址進行阻止，這需要一些htaccess的協助。

order allow,deny
deny from 192.168.44.201
deny from 224.39.163.12
deny from 172.16.7.92
allow from all

302（或307）臨時移動（Moved Temporarily）和 301 永久移動（Moved Permanently）

這兩個狀態會出現在流覽器重定向時。例如，你使用了類似 bit.ly 的網址縮短服務。這也是它們如何獲知誰點擊了他們鏈結的方法。

302和301對於流覽器來說是非常相似的，但對於搜索引擎爬蟲就有一些差別。打個比方，如果你的網站正在維護，那麼你就會將用戶端流覽器用302 重定向到另外一個位址。搜索引擎爬蟲就會在將來重新索引你的頁面。但是如果你使用了301重定向，這就等於你告訴了搜索引擎爬蟲：你的網站已經永久的移動到了新的位址。

500 伺服器錯誤（Internal Server Error）

這個代碼通常會在頁面腳本崩潰時出現。大部分CGI腳本都不會像PHP那樣輸出錯誤資訊給流覽器。如果出現了致命的錯誤，它們只會發送一個500的狀態碼。這時需要查看伺服器錯誤日誌來排錯。

完整的列表

你可以在這裏找到完整的HTTP 狀態碼說明。

HTTP Headers 中的 HTTP請求

現在我們來看一些在HTTP headers中常見的HTTP請求資訊。

所有這些Header資訊都可以在PHP的$_SERVER陣列中找到。你也可以用getallheaders() 函數一次性獲取所有的Header資訊。

Host

一個HTTP請求會發送至一個特定的IP位址，但是大部分伺服器都有在同一IP位址下託管多個網站的能力，那麼伺服器必須知道流覽器請求的是哪個功能變數名稱下的資源。

Host: rlog.cn

這只是基本的主機名，包含功能變數名稱和子級功能變數名稱。

在PHP中，可以通過$_SERVER['HTTP_HOST'] 或 $_SERVER['SERVER_NAME']來查看。

User-Agent

User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)

這個Header可以攜帶如下幾條資訊：

流覽器名和版本號.
作業系統名和版本號.
默認語言.

這就是某些網站用來收集訪客資訊的一般手段。例如，你可以判斷訪客是否在使用手機訪問你的網站，然後決定是否將他們引導至一個在低解析度下表現良好的移動網站。

在PHP中，可以通過 $_SERVER['HTTP_USER_AGENT'] 來獲取User-Agent

if ( strstr($_SERVER['HTTP_USER_AGENT'],'MSIE 6') ) {
echo "Please stop using IE6!";
}

Accept-Language

Accept-Language: en-us,en;q=0.5

這個資訊可以說明用戶的默認語言設置。如果網站有不同的語言版本，那麼就可以通過這個資訊來重定向用戶的流覽器。

它可以通過逗號分割來攜帶多國語言。第一個會是首選的語言，其他語言會攜帶一個“q”值，來表示用戶對該語言的喜好程度（0~1）。

在PHP中用 $_SERVER["HTTP_ACCEPT_LANGUAGE"] 來獲取這一資訊。

if (substr($_SERVER['HTTP_ACCEPT_LANGUAGE'], 0, 2) == 'fr') {
header('Location: http://french.mydomain.com');
}

Accept-Encoding

Accept-Encoding: gzip,deflate

大部分的流覽器都支援gzip壓縮，並會把這一資訊報告給伺服器。這時伺服器就會壓縮HTML發送給流覽器。這可以減少近80%的檔案大小，以節省下載時間和頻寬。

在PHP中可以使用 $_SERVER["HTTP_ACCEPT_ENCODING"] 獲取該資訊。然後調用ob_gzhandler()方法時會自動檢測該值，所以你無需手動檢測。

// enables output buffering
// and all output is compressed if the browser supports it
ob_start(‘ob_gzhandler’);

If-Modified-Since

如果一個頁面已經在你的流覽器中被cache，那麼你下次流覽時流覽器將會檢測文檔是否被修改過，那麼它就會發送這樣的Header：

If-Modified-Since: Sat, 28 Nov 2009 06:38:19 GMT

如果自從這個時間以來未被修改過，那麼伺服器將會返回“304 Not Modified”，而且不會再返回內容。流覽器將自動去緩存中讀取內容

在PHP中，可以用$_SERVER['HTTP_IF_MODIFIED_SINCE'] 來檢測。

// assume $last_modify_time was the last the output was updated
// did the browser send If-Modified-Since header?
if(isset($_SERVER['HTTP_IF_MODIFIED_SINCE'])) {
// if the browser cache matches the modify time
if ($last_modify_time == strtotime($_SERVER['HTTP_IF_MODIFIED_SINCE'])) {
// send a 304 header, and no content
header("HTTP/1.1 304 Not Modified");
exit;
}
}

還有一個叫Etag的HTTP頭資訊，它被用來確定緩存的資訊是否正確，稍後我們將會解釋它。

Cookie

顧名思義，他會送出流覽器中存儲的Cookie資訊給伺服器。

Cookie: PHPSESSID=r2t5uvjq435r4q7ib3vtdjq120; foo=bar

它是用分號分割的一組名值對。Cookie也可以包含session id。

在PHP中，單一的Cookie可以訪問$_COOKIE陣列獲得。你可以直接用$_SESSION array獲取session變數。如果你需要session id，那麼你可以使用session_id()函數代替cookie。

echo $_COOKIE['foo'];
// output: bar
echo $_COOKIE['PHPSESSID'];
// output: r2t5uvjq435r4q7ib3vtdjq120
session_start();
echo session_id();
// output: r2t5uvjq435r4q7ib3vtdjq120

Referer

顧名思義, Header將會包含referring url信息。

例如，我訪問Nettuts+的主頁並點擊了一個鏈結，這個Header資訊將會發送到流覽器：
Referer: http://net.tutsplus.com/

在PHP中，可以通過 $_SERVER['HTTP_REFERER'] 獲取該值。

if (isset($_SERVER['HTTP_REFERER'])) {
$url_info = parse_url($_SERVER['HTTP_REFERER']);
// is the surfer coming from Google?
if ($url_info['host'] == 'www.google.com') {
parse_str($url_info['query'], $vars);
echo "You searched on Google for this keyword: ". $vars['q'];
}
}
// if the referring url was:
// http://www.google.com/search?source=ig&amp;hl=en&amp;rlz=&amp;=&amp;q=http+headers&amp;aq=f&amp;oq=&amp;aqi=g-p1g9
// the output will be:
// You searched on Google for this keyword: http headers

You may have noticed the word “referrer” is misspelled as “referer”. Unfortunately it made into the official HTTP specifications like that and got stuck.

Authorization

當一個頁面需要授權，流覽器就會彈出一個登入視窗，輸入正確的帳號後，流覽器會發送一個HTTP請求，但此時會包含這樣一個Header：

Authorization: Basic bXl1c2VyOm15cGFzcw==

包含在Header的這部分資訊是base64 encoded。例如，base64_decode(‘bXl1c2VyOm15cGFzcw==’) 會被轉化為 ‘myuser:mypass’ 。

在PHP中，這個值可以用$_SERVER['PHP_AUTH_USER'] 和 $_SERVER['PHP_AUTH_PW'] 獲得。

更多細節我們會在WWW-Authenticate部分講解。

HTTP Headers 中的 HTTP回應

現在讓我瞭解一些常見的HTTP Headers中的HTTP回應資訊。

在PHP中，你可以通過 header() 來設置Header回應資訊。PHP已經自動發送了一些必要的Header資訊，如載入的內容，設置 cookies 等等… 你可以通過 headers_list() 函數看到已發送和將要發送的Header資訊。你也可以使用headers_sent()函數來檢查Header資訊是否已經被發送。

Cache-Control

w3.org 的定義是：“The Cache-Control general-header field is used to specify directives which MUST be obeyed by all caching mechanisms along the request/response chain.” 其中“caching mechanisms” 包含一些你ISP可能會用到的閘道和代理資訊。

例如：

Cache-Control: max-age=3600, public

“public”意味著這個回應可以被任何人cache，“max-age” 則表明了該cache有效的秒數。允許你的網站被cache降大大減少下載時間和帶寬，同時也提高的流覽器的載入速度。

也可以通過設置 “no-cache” 指令來禁止緩存：

Cache-Control: no-cache

更多詳情請參見w3.org。

Content-Type

這個Header包含了文檔的”mime-type”。流覽器將會依據該參數決定如何對文檔進行解析。例如，一個html頁面（或者有html輸出的php頁面）將會返回這樣的東西：

Content-Type: text/html; charset=UTF-8

‘text’ 是文檔類型，‘html’則是文檔子類型。這個Header還包括了更多資訊，例如 charset。

如果是一個圖片，將會發送這樣的回應：

Content-Type: image/gif

流覽器可以通過mime-type來決定使用外部程式還是自身擴展來打開該文檔。如下的例子降調用Adobe Reader：

Content-Type: application/pdf

直接載入，Apache通常會自動判斷文檔的mime-type並且添加合適的資訊到Header去。並且大部分流覽器都有一定程度的容錯，在Header未提供或者錯誤提供該資訊的情況下它會去自動檢測mime-type。

你可以在這裏找到一個常用mime-type列表。

在PHP中你可以通過 finfo_file() 來檢測檔的ime-type。

Content-Disposition

這個Header資訊將告訴流覽器打開一個檔下載視窗，而不是試圖解析該回應的內容。例如：

Content-Disposition: attachment; filename=”download.zip”

他會導致流覽器出現這樣的對話方塊：

注意，適合它的Content-Type頭資訊同時也會被發送

Content-Type: application/zip
Content-Disposition: attachment; filename=”download.zip”

Content-Length

當內容將要被傳輸到流覽器時，伺服器可以通過該Header告知流覽器將要傳送檔的大小（bytes）。

Content-Length: 89123

對於檔下載來說這個資訊相當的有用。這就是為什麼流覽器知道下載進度的原因。

例如，這裏我寫了一段虛擬腳本，來模擬一個慢速下載。

// it's a zip file
header('Content-Type: application/zip');
// 1 million bytes (about 1megabyte)
header('Content-Length: 1000000');
// load a download dialogue, and save it as download.zip
header('Content-Disposition: attachment; filename="download.zip"');
// 1000 times 1000 bytes of data
for ($i = 0; $i &lt; 1000; $i++) {
echo str_repeat(".",1000);
// sleep to slow down the download
usleep(50000);
}

結果將會是這樣的：

現在，我將Content-LengthHeader注釋掉：

// it's a zip file
header('Content-Type: application/zip');
// the browser won't know the size
// header('Content-Length: 1000000');
// load a download dialogue, and save it as download.zip
header('Content-Disposition: attachment; filename="download.zip"');
// 1000 times 1000 bytes of data
for ($i = 0; $i &lt; 1000; $i++) {
echo str_repeat(".",1000);
// sleep to slow down the download
usleep(50000);
}

結果就變成了這樣：

這個流覽器只會告訴你已下載了多少，但不會告訴你總共需要下載多少。而且進度條也不會顯示進度。

Etag

這是另一個為緩存而產生的Header資訊。它看起來會是這樣：

Etag: “pub1259380237;gz”

伺服器可能會將該資訊和每個被發送檔一起回應給流覽器。該值可以包含文檔的最後修改日期，檔大小或者檔校驗和。流覽會把它和所接收到的文檔一起緩存。下一次當流覽器再次請求同一檔時將會發送如下的HTTP請求：

If-None-Match: “pub1259380237;gz”

如果所請求的文檔Etag值和它一致，伺服器將會發送304狀態碼，而不是200。並且不返回內容。流覽器此時就會從緩存載入該檔。

Last-Modified

顧名思義，這個Header資訊用GMT格式表明了文檔的最後修改時間：

Last-Modified: Sat, 28 Nov 2009 03:50:37 GMT

$modify_time = filemtime($file);
header(“Last-Modified: ” . gmdate(“D, d M Y H:i:s”, $modify_time) . ” GMT”);

它提供了另一種緩存機制。流覽器可能會發送這樣的請求：

If-Modified-Since: Sat, 28 Nov 2009 06:38:19 GMT

在If-Modified-Since一節我們已經討論過了。

Location

這個Header是用來重定向的。如果回應代碼為 301 或者 302 ，伺服器就必須發送該Header。例如，當你訪問 http://www.nettuts.com 時流覽器就會收到如下的回應：

HTTP/1.x 301 Moved Permanently
…
Location: http://net.tutsplus.com/
…

在PHP中你可以通過這種方式對訪客重定向：
header(‘Location: http://net.tutsplus.com/’);

默認會發送302狀態碼，如果你想發送301，就這樣寫：

header(‘Location: http://net.tutsplus.com/’, true, 301);

Set-Cookie

當一個網站需要設置或者更新你流覽的cookie資訊時，它就會使用這樣的Header：

Set-Cookie: skin=noskin; path=/; domain=.amazon.com; expires=Sun, 29-Nov-2009 21:42:28 GMT
Set-Cookie: session-id=120-7333518-8165026; path=/; domain=.amazon.com; expires=Sat Feb 27 08:00:00 2010 GMT

每個cookie會作為單獨的一條Header資訊。注意，通過js設置cookie將不會出現在HTTP頭中。

在PHP中，你可以通過setcookie()函數來設置cookie，PHP會發送合適的HTTP 頭。

setcookie(“TestCookie”, “foobar”);

它會發送這樣的頭資訊：

Set-Cookie: TestCookie=foobar

如果未指定到期時間，cookie就會在流覽器關閉後被刪除。

WWW-Authenticate

一個網站可能會通過HTTP發送這個Header資訊來驗證用戶。當流覽器看到Header有這個回應時就會打開一個彈出窗。

WWW-Authenticate: Basic realm=”Restricted Area”

它會看起來像這樣：

在PHP手冊的一章中就有一段簡單的代碼演示了如果用PHP做這樣的事情：

if (!isset($_SERVER['PHP_AUTH_USER'])) {
header('WWW-Authenticate: Basic realm="My Realm"');
header('HTTP/1.0 401 Unauthorized');
echo 'Text to send if user hits Cancel button';
exit;
} else {
echo “

Hello {$_SERVER['PHP_AUTH_USER']}.

”;
echo “

You entered {$_SERVER['PHP_AUTH_PW']} as your password.

”;
 
}

Content-Encoding

這個Header通常會在返回內容被壓縮時設置。

posted on 2013-10-04 10:23 r00tgrok 阅读(964) 评论(0) 收藏举报

刷新页面返回顶部

知彼知己，百战不殆

导航

Http-Header解析