Http-Header解析
转载自:http://www.cnblogs.com/meil/archive/2007/03/06/665843.html
http://thobian.info/?p=318 (繁体字)
HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写,它用于传送WWW方式的数据,关于HTTP协议的详 细内容请参考RFC2616。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求,请求头包含请求的方法、URI、协议版本、以及包含请求修 饰符、客户信息和内容的类似于MIME的消息结构。服务器以一个状态行作为响应,相应的内容包括消息协议的版本,成功或者错误编码加上包含服务器信息、实 体元信息以及可能的实体内容。
通常HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息。这两种类型的消息由一个起始
行,一个或者多个头域,一个只是头域结束的空行和可选的消息体组成。HTTP的头域包括通用头,请求头,响应头和实体头四个部分。每个头域由一个域名,冒
号(:)和域值三部分组成。域名是大小写无关的,域值前可以添加任何数量的空格符,头域可以被扩展为多行,在每行开始处,使用至少一个空格或制表符。
通用头域
通
用头域包含请求和响应消息都支持的头域,通用头域包含Cache-Control、
Connection、Date、Pragma、Transfer-Encoding、Upgrade、Via。对通用头域的扩展要求通讯双方都支持此扩
展,如果存在不支持的通用头域,一般将会作为实体头域处理。下面简单介绍几个在UPnP消息中使用的通用头域。
Cache-Control头域
Cache-
Control指定请求和响应遵循的缓存机制。在请求消息或响应消息中设置
Cache-Control并不会修改另一个消息处理过程中的缓存处理过程。请求时的缓存指令包括no-cache、no-store、max-age、
max-stale、min-fresh、only-if-cached,响应消息中的指令包括public、private、no-cache、no-
store、no-transform、must-revalidate、proxy-revalidate、max-age。各个消息中的指令含义如
下:
Public指示响应可被任何缓存区缓存。
Private指示对于单个用户的整个或部分响应消息,不能被共享缓存处理。这允许服务器仅仅描述当用户的部分响应消息,此响应消息对于其他用户的请求无效。
no-cache指示请求或响应消息不能缓存
no-store用于防止重要的信息被无意的发布。在请求消息中发送将使得请求和响应消息都不使用缓存。
max-age指示客户机可以接收生存期不大于指定时间(以秒为单位)的响应。
min-fresh指示客户机可以接收响应时间小于当前时间加上指定时间的响应。
max-stale指示客户机可以接收超出超时期间的响应消息。如果指定max-stale消息的值,那么客户机可以接收超出超时期指定值之内的响应消息。
Date头域
Date头域表示消息发送的时间,时间的描述格式由rfc822定义。例如,Date:Mon,31Dec200104:25:57GMT。Date描述的时间表示世界标准时,换算成本地时间,需要知道用户所在的时区。
Pragma头域
Pragma头域用来包含实现特定的指令,最常用的是Pragma:no-cache。在HTTP/1.1协议中,它的含义和Cache- Control:no-cache相同。
请求消息
请求消息的第一行为下面的格式:
MethodSPRequest-URISPHTTP-VersionCRLFMethod
表示对于Request-URI完成的方法,这个字段是大小写敏感的,包括OPTIONS、GET、HEAD、POST、PUT、DELETE、
TRACE。方法GET和HEAD应该被所有的通用WEB服务器支持,其他所有方法的实现是可选的。GET方法取回由Request-URI标识的信息。
HEAD方法也是取回由Request-URI标识的信息,只是可以在响应时,不返回消息体。POST方法可以请求服务器接收包含在请求中的实体信息,可
以用于提交表单,向新闻组、BBS、邮件群组和数据库发送消息。
SP表示空格。Request-URI遵循URI格式,在此字段为星号
(*)时,说明请求并不用于某个特定的资源地址,而是用于服务器本身。HTTP-
Version表示支持的HTTP版本,例如为HTTP/1.1。CRLF表示换行回车符。请求头域允许客户端向服务器传递关于请求或者关于客户机的附加
信息。请求头域可能包含下列字段Accept、Accept-Charset、Accept-
Encoding、Accept-Language、Authorization、From、Host、If-Modified-Since、If-
Match、If-None-Match、If-Range、If-Range、If-Unmodified-Since、Max-Forwards、
Proxy-Authorization、Range、Referer、User-Agent。对请求头域的扩展要求通讯双方都支持,如果存在不支持的请
求头域,一般将会作为实体头域处理。
典型的请求消息:
GET http://download.microtool.de:80/somedata.exe
Host: download.microtool.de
Accept:*/*
Pragma: no-cache
Cache-Control: no-cache
Referer: http://download.microtool.de/
User-Agent:Mozilla/4.04[en](Win95;I;Nav)
Range:bytes=554554-
上例第一行表示HTTP客户端(可能是浏览器、下载程序)通过GET方法获得指定URL下的文件。棕色的部分表示请求头域的信息,绿色的部分表示通用头部分。
Host头域
Host头域指定请求资源的Intenet主机和端口号,必须表示请求url的原始服务器或网关的位置。HTTP/1.1请求必须包含主机头域,否则系统会以400状态码返回。
Referer头域
Referer
头域允许客户端指定请求uri的源资源地址,这可以允许服务器生成回退链表,可用来登陆、优化cache等。他也允许废除的或错误的连接由于维护的目的被
追踪。如果请求的uri没有自己的uri地址,Referer不能被发送。如果指定的是部分uri地址,则此地址应该是一个相对地址。
Range头域
Range头域可以请求实体的一个或者多个子范围。例如,
表示头500个字节:bytes=0-499
表示第二个500字节:bytes=500-999
表示最后500个字节:bytes=-500
表示500字节以后的范围:bytes=500-
第一个和最后一个字节:bytes=0-0,-1
同时指定几个范围:bytes=500-600,601-999
但是服务器可以忽略此请求头,如果无条件GET包含Range请求头,响应会以状态码206(PartialContent)返回而不是以200 (OK)。
User-Agent头域
User-Agent头域的内容包含发出请求的用户信息。
响应消息
响应消息的第一行为下面的格式:
HTTP-VersionSPStatus-CodeSPReason-PhraseCRLF
HTTP-
Version表示支持的HTTP版本,例如为HTTP/1.1。Status-
Code是一个三个数字的结果代码。Reason-Phrase给Status-Code提供一个简单的文本描述。Status-Code主要用于机器自
动识别,Reason-Phrase主要用于帮助用户理解。Status-Code的第一个数字定义响应的类别,后两个数字没有分类的作用。第一个数字可
能取5个不同的值:
1xx:信息响应类,表示接收到请求并且继续处理
2xx:处理成功响应类,表示动作被成功接收、理解和接受
3xx:重定向响应类,为了完成指定的动作,必须接受进一步处理
4xx:客户端错误,客户请求包含语法错误或者是不能正确执行
5xx:服务端错误,服务器不能正确执行一个正确的请求
响
应头域允许服务器传递不能放在状态行的附加信息,这些域主要描述服务器的信息和
Request-URI进一步的信息。响应头域包含Age、Location、Proxy-Authenticate、Public、Retry-
After、Server、Vary、Warning、WWW-Authenticate。对响应头域的扩展要求通讯双方都支持,如果存在不支持的响应头
域,一般将会作为实体头域处理。
典型的响应消息:
HTTP/1.0200OK
Date:Mon,31Dec200104:25:57GMT
Server:Apache/1.3.14(Unix)
Content-type:text/html
Last-modified:Tue,17Apr200106:46:28GMT
Etag:"a030f020ac7c01:1e9f"
Content-length:39725426
Content-range:bytes554554-40279979/40279980
上例第一行表示HTTP服务端响应一个GET方法。棕色的部分表示响应头域的信息,绿色的部分表示通用头部分,红色的部分表示实体头域的信息。
Location响应头
Location响应头用于重定向接收者到一个新URI地址。
Server响应头
Server响应头包含处理请求的原始服务器的软件信息。此域能包含多个产品标识和注释,产品标识一般按照重要性排序。
实体
请
求消息和响应消息都可以包含实体信息,实体信息一般由实体头域和实体组成。实体头域包含关于实体的原信息,实体头包括Allow、Content-
Base、Content-Encoding、Content-Language、
Content-Length、Content-Location、Content-MD5、Content-Range、Content-Type、
Etag、Expires、Last-Modified、extension-header。extension-header允许客户端定义新的实体
头,但是这些域可能无法未接受方识别。实体可以是一个经过编码的字节流,它的编码方式由Content-Encoding或Content-Type定
义,它的长度由Content-Length或Content-Range定义。
Content-Type实体头
Content-Type实体头用于向接收方指示实体的介质类型,指定HEAD方法送到接收方的实体介质类型,或GET方法发送的请求介质类型 Content-Range实体头
Content-Range实体头用于指定整个实体中的一部分的插入位置,他也指示了整个实体的长度。在服务器向客户返回一个部分响应,它必须描述响应覆盖的范围和整个实体长度。一般格式:
Content-Range:bytes-unitSPfirst-byte-pos-last-byte-pos/entity-legth
例
如,传送头500个字节次字段的形式:Content-Range:bytes0-
499/1234如果一个http消息包含此节(例如,对范围请求的响应或对一系列范围的重叠请求),Content-Range表示传送的范围,
Content-Length表示实际传送的字节数。
Last-modified实体头
Last-modified实体头指定服务器上保存内容的最后修订时间。
应答头 | 说明 |
Allow | 服务器支持哪些请求方法(如GET、POST等)。 |
Content-Encoding | 文档的编码(Encode)方法。只有在解码之后才可以得到Content-Type头指定的内容类型。利用gzip压 缩文档能够显著地减少HTML文档的下载时间。Java的GZIPOutputStream可以很方便地进行gzip压缩,但只有Unix上的 Netscape和Windows上的IE 4、IE 5才支持它。因此,Servlet应该通过查看Accept-Encoding头(即request.getHeader("Accept- Encoding"))检查浏览器是否支持gzip,为支持gzip的浏览器返回经gzip压缩的HTML页面,为其他浏览器返回普通页面。 |
Content-Length | 表示内容长度。只有当浏览器使用持久HTTP连接时才需要这个数据。如果你想要利用持久连接的优势,可以把输出文档写入 ByteArrayOutputStram,完成后查看其大小,然后把该值放入Content-Length头,最后通过 byteArrayStream.writeTo(response.getOutputStream()发送内容。 |
Content-Type | 表示后面的文档属于什么MIME类型。Servlet默认为text/plain,但通常需要显式地指定为text/html。由于经常要设置Content-Type,因此HttpServletResponse提供了一个专用的方法setContentTyep。 |
Date | 当前的GMT时间。你可以用setDateHeader来设置这个头以避免转换时间格式的麻烦。 |
Expires | 应该在什么时候认为文档已经过期,从而不再缓存它? |
Last-Modified | 文档的最后改动时间。客户可以通过If-Modified-Since请求头提供一个日期,该请求将被视为一个条件 GET,只有改动时间迟于指定时间的文档才会返回,否则返回一个304(Not Modified)状态。Last-Modified也可用setDateHeader方法来设置。 |
Location | 表示客户应当到哪里去提取文档。Location通常不是直接设置的,而是通过HttpServletResponse的sendRedirect方法,该方法同时设置状态代码为302。 |
Refresh | 表示浏览器应该在多少时间之后刷新文档,以秒计。除了刷新当前文档之外,你还可以通过setHeader("Refresh", "5; URL=http://host/path")让浏览器读取指定的页面。 注 意这种功能通常是通过设置HTML页面HEAD区的<META HTTP-EQUIV="Refresh" CONTENT="5;URL=http://host/path">实现,这是因为,自动刷新或重定向对于那些不能使用CGI或Servlet的 HTML编写者十分重要。但是,对于Servlet来说,直接设置Refresh头更加方便。 注意Refresh的意义是“N秒之后刷 新本页面或访问指定页面”,而不是“每隔N秒刷新本页面或访问指定页面”。因此,连续刷新要求每次都发送一个Refresh头,而发送204状态代码则可 以阻止浏览器继续刷新,不管是使用Refresh头还是<META HTTP-EQUIV="Refresh" ...>。 注意Refresh头不属于HTTP 1.1正式规范的一部分,而是一个扩展,但Netscape和IE都支持它。 |
Server | 服务器名字。Servlet一般不设置这个值,而是由Web服务器自己设置。 |
Set-Cookie | 设置和页面关联的Cookie。Servlet不应使用response.setHeader("Set-Cookie", ...),而是应使用HttpServletResponse提供的专用方法addCookie。参见下文有关Cookie设置的讨论。 |
WWW-Authenticate | 客户应该在Authorization头中提供什么类型的授权信息?在包含401(Unauthorized)状态行的
应答中这个头是必需的。例如,response.setHeader("WWW-Authenticate", "BASIC
realm=\"executives\"")。 注意Servlet一般不进行这方面的处理,而是让Web服务器的专门机制来控制受密码保护页面的访问(例如.htaccess)。 |
HTTP Headers是HTTP請求和相應的核心,它承載了關於用戶端流覽器,請求頁面,伺服器等相關的資訊。
示例
當你在流覽器位址欄裏鍵入一個url,你的流覽器會將類似如下的http請求:
GET /tutorials/other/top-20-mysql-best-practices/ HTTP/1.1 (Request line) Host: net.tutsplus.com User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729) Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: en-us,en;q=0.5 Accept-Encoding: gzip,deflate Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7 Keep-Alive: 300 Connection: keep-alive Cookie: PHPSESSID=r2t5uvjq435r4q7ib3vtdjq120 Pragma: no-cache Cache-Control: no-cache |
第一行被稱為“Request Line” 它描述的是這個請求的基本資訊,剩下的就是HTTP headers了。
請求完成之後,你的流覽器可能會收到如下的HTTP回應:
HTTP/1.x 200 OK (state line) Transfer-Encoding: chunked Date: Sat, 28 Nov 2009 04:36:25 GMT Server: LiteSpeed Connection: close X-Powered-By: W3 Total Cache/0.8 Pragma: public Expires: Sat, 28 Nov 2009 05:36:25 GMT Etag: "pub1259380237;gz" Cache-Control: max-age=3600, public Content-Type: text/html; charset=UTF-8 Last-Modified: Sat, 28 Nov 2009 03:50:37 GMT X-Pingback: http://net.tutsplus.com/xmlrpc.php Content-Encoding: gzip Vary: Accept-Encoding, Cookie, User-Agent <!-- ... rest of the html ... --> |
第一行被稱為“Status Line”,它之後就是http headers,空行完了就開始輸出內容了(在這個案例中是一些html輸出)。
但你查看頁面源代碼卻不能看到HTTP headers,雖然它們連同你能看到的東西一起被傳送至流覽器。
這個HTTP請求也發出了一些其他資源的接收請求,例如圖片,css檔,js文件等等。
下面我們來看看細節。
怎樣才能看到HTTP Headers
下面這些FireFox擴展能夠幫助你分析HTTP headers:
1. firebug
3. 在PHP中:
- getallheaders() 用來獲取請求Header. 你也可以使用 $_SERVER 陣列.
- headers_list() 用來獲取回應Header.
文章下面將會看到一些使用php示範的例子。
HTTP Request 的結構
被稱作“first line”的第一行包含三個部分:
- “method” 表明這是何種類型的請求. 最常見的請求類型有 GET, POST 和 HEAD.
- “path” 體現的是主機之後的路徑. 例如,當你請求 “http://net.tutsplus.com/tutorials/other/top-20-mysql-best-practices/”時 , path 就會是 “/tutorials/other/top-20-mysql-best-practices/”.
- “protocol” 包含有 “HTTP” 和版本號, 目前流覽器都會使用1.1.
剩下的部分每行都是一個“Name:Value”對。它們包含了各式各樣關於請求和你流覽器的資訊。
例如”User-Agent“就表明了你流覽器版本和你所用的作業系統。
”Accept-Encoding“會告訴伺服器你的流覽可以接受類似gzip的壓縮輸出。
這些headers大部分都是可選的。HTTP 請求甚至可以被精簡成這樣子:
GET /tutorials/other/top-20-mysql-best-practices/ HTTP/1.1
Host: net.tutsplus.com
並且你仍舊可以從伺服器收到有效的回應。
請求類型
三種最常見的請求類型是:GET,POST 和 HEAD ,從html的編寫過程中你可能已經熟悉了前兩種。
GET:獲取一個文檔
大部分被傳輸到流覽器的html,images,js,css, … 都是通過GET方法發出請求的。它是獲取資料的主要方法。
例如,要獲取Nettuts+ 的文章,http request的第一行通常看起來是這樣的:
GET /tutorials/other/top-20-mysql-best-practices/ HTTP/1.1
一旦html載入完成,流覽器將會發送GET 請求去獲取圖片,就像下面這樣:
GET /wp-content/themes/tuts_theme/images/header_bg_tall.png HTTP/1.1
表單也可以通過GET方法發送,下面是個例子:
當這個表單被提交時,HTTP request 就會像這樣:
GET /foo.php?first_name=John&last_name=Doe&action=Submit HTTP/1.1
…
你可以將表單輸入通過附加進查詢字串的方式發送至伺服器。
POST:發送資料至伺服器
儘管你可以通過GET方法將資料附加到url中傳送給伺服器,但在很多情況下使用POST發送資料給伺服器更加合適。通過GET發送大量資料是不現實的,它有一定的局限性。
用POST請求來發送表單數據是普遍的做法。我們來吧上面的例子改造成使用POST方式:
提交這個表單會創建一個如下的HTTP 請求:
POST /foo.php HTTP/1.1 Host: localhost User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729) Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: en-us,en;q=0.5 Accept-Encoding: gzip,deflate Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7 Keep-Alive: 300 Connection: keep-alive Referer: http://localhost/test.php Content-Type: application/x-www-form-urlencoded Content-Length: 43 first_name=John&last_name=Doe&action=Submit |
這裏有三個需要注意的地方:
- 第一行的路徑已經變為簡單的 /foo.php , 已經沒了查詢字串。
- 新增了 Content-Type 和 Content-Lenght Header,它提供了發送資訊的相關資訊.
- 所有資料都在headers之後,以查詢字串的形式被發送.
POST方式的請求也可用在AJAX,應用程式,cURL … 之上。並且所有的檔上傳表單都被要求使用POST方式。
HEAD:接收Header資訊
HEAD和GET很相似,只不過HEAD不接受HTTP回應的內容部分。當你發送了一個HEAD請求,那就意味著你只對HTTPHeader感興趣,而不是文檔本身。
這個方法可以讓流覽器判斷頁面是否被修改過,從而控制緩存。也可判斷所請求的文檔是否存在。
例如,假如你的網站上有很多鏈結,那麼你就可以簡單的給他們分別發送HEAD請求來判斷是否存在死鏈,這比使用GET要快很多。
http回應結構
當流覽器發送了HTTP請求之後,伺服器就會通過一個HTTP response來回應這個請求。如果不關心內容,那麼這個請求看起來會是這樣的:
第一個有價值的資訊就是協定。目前伺服器都會使用 HTTP/1.x 或者 HTTP/1.1。
接下來一個簡短的資訊代表狀態。代碼200意味著我們的請求已經發送成功了,伺服器將會返回給我們所請求的文檔,在Header資訊之後。
我們都見過“404”頁面。當我向伺服器請求一個不存在的路徑時,伺服器就用用404來代替200回應我們。
餘下的回應內容和HTTP請求相似。這些內容是關於伺服器軟體的,頁面/檔何時被修改過,mime type 等等…
同樣,這些Header資訊也是可選的。
HTTP狀態碼
- 200 用來表示請求成功.
- 300 來表示重定向.
- 400 用來表示請求出現問題.
- 500 用來表示伺服器出現問題.
200 成功 (OK)
前文已經提到,200是用來表示請求成功的。
206 部分內容 (Partial Content)
如果一個應用只請求某範圍之內的檔,那麼就會返回206.
這通常被用來進行下載管理,中斷點續傳或者檔分塊下載。
404 沒有找到 (Not Found)
很容易理解
401 未經授權 (Unauthorized)
受密碼保護的頁面會返回這個狀態。如果你沒有輸入正確的密碼,那麼你就會在流覽器中看到如下的資訊:
注意這只是受密碼保護頁面,請求輸入密碼的彈出框是下面這個樣子的:
403 被禁止(Forbidden)
如果你沒有許可權訪問某個頁面,那麼就會返回403狀態。這種情況通常會發生在你試圖打開一個沒有index頁面的檔夾。如果伺服器設置不允許查看目錄內容,那麼你就會看到403錯誤。
其他一些方式也會發送許可權限制,例如你可以通過IP位址進行阻止,這需要一些htaccess的協助。
order allow,deny deny from 192.168.44.201 deny from 224.39.163.12 deny from 172.16.7.92 allow from all |
302(或307)臨時移動(Moved Temporarily) 和 301 永久移動(Moved Permanently)
這兩個狀態會出現在流覽器重定向時。例如,你使用了類似 bit.ly 的網址縮短服務。這也是它們如何獲知誰點擊了他們鏈結的方法。
302和301對於流覽器來說是非常相似的,但對於搜索引擎爬蟲就有一些差別。打個比方,如果你的網站正在維護,那麼你就會將用戶端流覽器用302 重定向到另外一個位址。搜索引擎爬蟲就會在將來重新索引你的頁面。但是如果你使用了301重定向,這就等於你告訴了搜索引擎爬蟲:你的網站已經永久的移動 到了新的位址。
500 伺服器錯誤(Internal Server Error)
這個代碼通常會在頁面腳本崩潰時出現。大部分CGI腳本都不會像PHP那樣輸出錯誤資訊給流覽器。如果出現了致命的錯誤,它們只會發送一個500的狀態碼。這時需要查看伺服器錯誤日誌來排錯。
完整的列表
你可以在這裏找到完整的HTTP 狀態碼說明。
HTTP Headers 中的 HTTP請求
現在我們來看一些在HTTP headers中常見的HTTP請求資訊。
所有這些Header資訊都可以在PHP的$_SERVER陣列中找到。你也可以用getallheaders() 函數一次性獲取所有的Header資訊。
Host
一個HTTP請求會發送至一個特定的IP位址,但是大部分伺服器都有在同一IP位址下託管多個網站的能力,那麼伺服器必須知道流覽器請求的是哪個功能變數名稱下的資源。
Host: rlog.cn
這只是基本的主機名,包含功能變數名稱和子級功能變數名稱。
在PHP中,可以通過$_SERVER['HTTP_HOST'] 或 $_SERVER['SERVER_NAME']來查看。
User-Agent
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729) |
這個Header可以攜帶如下幾條資訊:
- 流覽器名和版本號.
- 作業系統名和版本號.
- 默認語言.
這就是某些網站用來收集訪客資訊的一般手段。例如,你可以判斷訪客是否在使用手機訪問你的網站,然後決定是否將他們引導至一個在低解析度下表現良好的移動網站。
在PHP中,可以通過 $_SERVER['HTTP_USER_AGENT'] 來獲取User-Agent
if ( strstr($_SERVER['HTTP_USER_AGENT'],'MSIE 6') ) { echo "Please stop using IE6!"; } |
Accept-Language
Accept-Language: en-us,en;q=0.5
這個資訊可以說明用戶的默認語言設置。如果網站有不同的語言版本,那麼就可以通過這個資訊來重定向用戶的流覽器。
它可以通過逗號分割來攜帶多國語言。第一個會是首選的語言,其他語言會攜帶一個“q”值,來表示用戶對該語言的喜好程度(0~1)。
在PHP中用 $_SERVER["HTTP_ACCEPT_LANGUAGE"] 來獲取這一資訊。
if (substr($_SERVER['HTTP_ACCEPT_LANGUAGE'], 0, 2) == 'fr') { header('Location: http://french.mydomain.com'); } |
Accept-Encoding
Accept-Encoding: gzip,deflate
大部分的流覽器都支援gzip壓縮,並會把這一資訊報告給伺服器。這時伺服器就會壓縮HTML發送給流覽器。這可以減少近80%的檔案大小,以節省下載時間和頻寬。
在PHP中可以使用 $_SERVER["HTTP_ACCEPT_ENCODING"] 獲取該資訊。 然後調用ob_gzhandler()方法時會自動檢測該值,所以你無需手動檢測。
// enables output buffering
// and all output is compressed if the browser supports it
ob_start(‘ob_gzhandler’);
If-Modified-Since
如果一個頁面已經在你的流覽器中被cache,那麼你下次流覽時流覽器將會檢測文檔是否被修改過,那麼它就會發送這樣的Header:
If-Modified-Since: Sat, 28 Nov 2009 06:38:19 GMT
如果自從這個時間以來未被修改過,那麼伺服器將會返回“304 Not Modified”,而且不會再返回內容。流覽器將自動去緩存中讀取內容
在PHP中,可以用$_SERVER['HTTP_IF_MODIFIED_SINCE'] 來檢測。
// assume $last_modify_time was the last the output was updated // did the browser send If-Modified-Since header? if(isset($_SERVER['HTTP_IF_MODIFIED_SINCE'])) { // if the browser cache matches the modify time if ($last_modify_time == strtotime($_SERVER['HTTP_IF_MODIFIED_SINCE'])) { // send a 304 header, and no content header("HTTP/1.1 304 Not Modified"); exit; } } |
還有一個叫Etag的HTTP頭資訊,它被用來確定緩存的資訊是否正確,稍後我們將會解釋它。
Cookie
顧名思義,他會送出流覽器中存儲的Cookie資訊給伺服器。
Cookie: PHPSESSID=r2t5uvjq435r4q7ib3vtdjq120; foo=bar
它是用分號分割的一組名值對。Cookie也可以包含session id。
在PHP中,單一的Cookie可以訪問$_COOKIE陣列獲得。你可以直接用$_SESSION array獲取session變數。如果你需要session id,那麼你可以使用session_id()函數代替cookie。
echo $_COOKIE['foo']; // output: bar echo $_COOKIE['PHPSESSID']; // output: r2t5uvjq435r4q7ib3vtdjq120 session_start(); echo session_id(); // output: r2t5uvjq435r4q7ib3vtdjq120 |
Referer
顧名思義, Header將會包含referring url信息。
例如,我訪問Nettuts+的主頁並點擊了一個鏈結,這個Header資訊將會發送到流覽器:
Referer: http://net.tutsplus.com/
在PHP中,可以通過 $_SERVER['HTTP_REFERER'] 獲取該值。
if (isset($_SERVER['HTTP_REFERER'])) { $url_info = parse_url($_SERVER['HTTP_REFERER']); // is the surfer coming from Google? if ($url_info['host'] == 'www.google.com') { parse_str($url_info['query'], $vars); echo "You searched on Google for this keyword: ". $vars['q']; } } // if the referring url was: // http://www.google.com/search?source=ig&hl=en&rlz=&=&q=http+headers&aq=f&oq=&aqi=g-p1g9 // the output will be: // You searched on Google for this keyword: http headers |
You may have noticed the word “referrer” is misspelled as “referer”. Unfortunately it made into the official HTTP specifications like that and got stuck.
Authorization
當一個頁面需要授權,流覽器就會彈出一個登入視窗,輸入正確的帳號後,流覽器會發送一個HTTP請求,但此時會包含這樣一個Header:
Authorization: Basic bXl1c2VyOm15cGFzcw==
包含在Header的這部分資訊是base64 encoded。例如,base64_decode(‘bXl1c2VyOm15cGFzcw==’) 會被轉化為 ‘myuser:mypass’ 。
在PHP中,這個值可以用$_SERVER['PHP_AUTH_USER'] 和 $_SERVER['PHP_AUTH_PW'] 獲得。
更多細節我們會在WWW-Authenticate部分講解。
HTTP Headers 中的 HTTP回應
現在讓我瞭解一些常見的HTTP Headers中的HTTP回應資訊。
在PHP中,你可以通過 header() 來設置Header回應資訊。PHP已經自動發送了一些必要的Header資訊,如 載入的內容,設置 cookies 等等… 你可以通過 headers_list() 函數看到已發送和將要發送的Header資訊。你也可以使用headers_sent()函數來檢查Header資訊是否已經被發送。
Cache-Control
w3.org 的定義是:“The Cache-Control general-header field is used to specify directives which MUST be obeyed by all caching mechanisms along the request/response chain.” 其中“caching mechanisms” 包含一些你ISP可能會用到的 閘道和代理資訊。
例如:
Cache-Control: max-age=3600, public
“public”意味著這個回應可以被任何人cache,“max-age” 則表明了該cache有效的秒數。允許你的網站被cache降大大減少下載時間和帶寬,同時也提高的流覽器的載入速度。
也可以通過設置 “no-cache” 指令來禁止緩存:
Cache-Control: no-cache
更多詳情請參見w3.org。
Content-Type
這個Header包含了文檔的”mime-type”。流覽器將會依據該參數決定如何對文檔進行解析。例如,一個html頁面(或者有html輸出的php頁面)將會返回這樣的東西:
Content-Type: text/html; charset=UTF-8
‘text’ 是文檔類型,‘html’則是文檔子類型。 這個Header還包括了更多資訊,例如 charset。
如果是一個圖片,將會發送這樣的回應:
Content-Type: image/gif
流覽器可以通過mime-type來決定使用外部程式還是自身擴展來打開該文檔。如下的例子降調用Adobe Reader:
Content-Type: application/pdf
直接載入,Apache通常會自動判斷文檔的mime-type並且添加合適的資訊到Header去。並且大部分流覽器都有一定程度的容錯,在Header未提供或者錯誤提供該資訊的情況下它會去自動檢測mime-type。
你可以在這裏找到一個常用mime-type列表。
在PHP中你可以通過 finfo_file() 來檢測檔的ime-type。
Content-Disposition
這個Header資訊將告訴流覽器打開一個檔下載視窗,而不是試圖解析該回應的內容。例如:
Content-Disposition: attachment; filename=”download.zip”
他會導致流覽器出現這樣的對話方塊:
注意,適合它的Content-Type頭資訊同時也會被發送
Content-Type: application/zip
Content-Disposition: attachment; filename=”download.zip”
Content-Length
當內容將要被傳輸到流覽器時,伺服器可以通過該Header告知流覽器將要傳送檔的大小(bytes)。
Content-Length: 89123
對於檔下載來說這個資訊相當的有用。這就是為什麼流覽器知道下載進度的原因。
例如,這裏我寫了一段虛擬腳本,來模擬一個慢速下載。
// it's a zip file header('Content-Type: application/zip'); // 1 million bytes (about 1megabyte) header('Content-Length: 1000000'); // load a download dialogue, and save it as download.zip header('Content-Disposition: attachment; filename="download.zip"'); // 1000 times 1000 bytes of data for ($i = 0; $i < 1000; $i++) { echo str_repeat(".",1000); // sleep to slow down the download usleep(50000); } |
結果將會是這樣的:
現在,我將Content-LengthHeader注釋掉:
// it's a zip file header('Content-Type: application/zip'); // the browser won't know the size // header('Content-Length: 1000000'); // load a download dialogue, and save it as download.zip header('Content-Disposition: attachment; filename="download.zip"'); // 1000 times 1000 bytes of data for ($i = 0; $i < 1000; $i++) { echo str_repeat(".",1000); // sleep to slow down the download usleep(50000); } |
結果就變成了這樣:
這個流覽器只會告訴你已下載了多少,但不會告訴你總共需要下載多少。而且進度條也不會顯示進度。
Etag
這是另一個為緩存而產生的Header資訊。它看起來會是這樣:
Etag: “pub1259380237;gz”
伺服器可能會將該資訊和每個被發送檔一起回應給流覽器。該值可以包含文檔的最後修改日期,檔大小或者檔校驗和。流覽會把它和所接收到的文檔一起緩存。下一次當流覽器再次請求同一檔時將會發送如下的HTTP請求:
If-None-Match: “pub1259380237;gz”
如果所請求的文檔Etag值和它一致,伺服器將會發送304狀態碼,而不是200。並且不返回內容。流覽器此時就會從緩存載入該檔。
Last-Modified
顧名思義,這個Header資訊用GMT格式表明了文檔的最後修改時間:
Last-Modified: Sat, 28 Nov 2009 03:50:37 GMT
$modify_time = filemtime($file);
header(“Last-Modified: ” . gmdate(“D, d M Y H:i:s”, $modify_time) . ” GMT”);
它提供了另一種緩存機制。流覽器可能會發送這樣的請求:
If-Modified-Since: Sat, 28 Nov 2009 06:38:19 GMT
在If-Modified-Since一節我們已經討論過了。
Location
這個Header是用來重定向的。如果回應代碼為 301 或者 302 ,伺服器就必須發送該Header。例如,當你訪問 http://www.nettuts.com 時流覽器就會收到如下的回應:
HTTP/1.x 301 Moved Permanently
…
Location: http://net.tutsplus.com/
…
在PHP中你可以通過這種方式對訪客重定向:
header(‘Location: http://net.tutsplus.com/’);
默認會發送302狀態碼,如果你想發送301,就這樣寫:
header(‘Location: http://net.tutsplus.com/’, true, 301);
Set-Cookie
當一個網站需要設置或者更新你流覽的cookie資訊時,它就會使用這樣的Header:
Set-Cookie: skin=noskin; path=/; domain=.amazon.com; expires=Sun, 29-Nov-2009 21:42:28 GMT Set-Cookie: session-id=120-7333518-8165026; path=/; domain=.amazon.com; expires=Sat Feb 27 08:00:00 2010 GMT |
每個cookie會作為單獨的一條Header資訊。注意,通過js設置cookie將不會出現在HTTP頭中。
在PHP中,你可以通過setcookie()函數來設置cookie,PHP會發送合適的HTTP 頭。
setcookie(“TestCookie”, “foobar”);
它會發送這樣的頭資訊:
Set-Cookie: TestCookie=foobar
如果未指定到期時間,cookie就會在流覽器關閉後被刪除。
WWW-Authenticate
一個網站可能會通過HTTP發送這個Header資訊來驗證用戶。當流覽器看到Header有這個回應時就會打開一個彈出窗。
WWW-Authenticate: Basic realm=”Restricted Area”
它會看起來像這樣:
在PHP手冊的一章中就有一段簡單的代碼演示了如果用PHP做這樣的事情:
if (!isset($_SERVER['PHP_AUTH_USER'])) { header('WWW-Authenticate: Basic realm="My Realm"'); header('HTTP/1.0 401 Unauthorized'); echo 'Text to send if user hits Cancel button'; exit; } else { echo “ |
Hello {$_SERVER['PHP_AUTH_USER']}.
”; echo “ |
You entered {$_SERVER['PHP_AUTH_PW']} as your password.
”; } |
Content-Encoding
這個Header通常會在返回內容被壓縮時設置。