[转]HTTP web缓存策略
-
1. web缓存基本作用:
HTTP协议中设计web缓存主要有以下几个作用:首先缓存能减少冗余数据的传输,可以减少网络成本; 其次缓存能减少客户端对远端server的依赖,从而提高了客户端装载页面的速度。下面着重阐述的是缓存的一些基本知识以及缓存策略给HTTP用户请求带 来的改变。
2. 缓存的基本知识:
(1) 命中(hit)以及缺失(miss)
衡量缓存所带来的性能影响可以采用命中率和非命中率两个参数。顾名思义,命中指的是缓存直接响应客户端的请求,缺失指的是缓存不能响应到客户端的请求,然 后将请求转发给远端server。通俗地讲,前者是缓存直接将结果返回给server,而后者是缓存中不存在,客户端将直接从远端获取结果。
(2)重验证(revalidation)
一般情况下,缓冲中的内容均存在一定的时效性,因此需要经常对缓存中的内容做有效性检查(fressness check),也叫“重验证”。触发对缓存中的内容进行重验证的方法很多,后面章节将会介绍到。上图比较形象地描述了缓存命中、缺失以及重验证三种情形。值得注意的是,重验证并不表示缓存中的内容一定是过时的(stale),它仅仅表示重验证触发条件收到,需要对缓存内容做重验证,仅此而已!
(3)缓存的种类:
缓存一般可以分成个人缓存(或者私有缓存)和共享缓存(“共有缓存”两大类),比如在个人PC机上的缓存一般称为私有缓存,而对于门户网站,它们为了快速 地响应各地用户请求,都会在CDN网络上建设自己的公共代理缓存(public proxy cache).
下面章节将主要讲解有关缓存的两个关键操作:更新和控制(指如何通过传递Header来控制缓存)缓存。
3. 更新(keep copies fresh)
首先要明白的是更新操作主要是为了保证缓存中的内容与远端server中的内容保持一致,HTTP协议规范中规定了两种途径:定义文档过期日期以及执行重验证。
◆ 文档过期时间(Document Expire)
针对文档过期时间,HTTP协议中规定了两种方式:第一种是在远端server为所回复的每个文档附上”Expires:”HTTP头部;另外一种是为所回复的每个文档附上缓存控制头部”Cache-Control: max-age= ”.
Header
description
Cache-Control: max-age
The max-age value defines the maximum age of the document—the maximum legal elapsed time (in seconds) from when a document is first generated to when it can no longer be considered fresh enough to serve
Expires
Specifies an absolute expiration date. If the expiration date is in the past, the document is no longer fresh.
上图是两种方式的对比,值得注意的是,“Cache-Control: max-age=”头部是在HTTP/1.1中规定的,而“Expires”则是在HTTP/1.0规定的,另外在RFC2616中规定,客户端在处理二 者时,“Cache-Control:max-age=”头部具有更高的优先级。当规定的时间过期时,并不代表文档中的内容一定是过时的,它只是提醒缓存 需要与远端的server做一致性检查——“重验证”。
◆ 重验证(Revalidation)
前面说过,当超过文档过期时间之后,客户端就必须做一致性检查,也就是本节将要阐述的“重验证”。很明显,重验证的目的就是去与远端server交互去判 断缓存中的文档是否已经改变(或者说是否过时),若重验证之后表明文档做了修改,此时就需要重新从远端server下载一份最新的文档,去代替缓存内容;若文档没有做修改,则只需获取从server端获取新的HTTP头部(可能包含新的过期时间),并更新缓存中的头部。
下面主要阐述HTTP规范中所定义的几种常见重验证方法。其中具有代表性的是“If-Modified-Since”以及“If-None-Match”两种头部。下表列出了这两种头部的作用及描述:
Header
description
If-Modified-Since:<date>
Perform the requested method if the document has been modified since the specified date. This is used in conjunction with the Last-Modified server response header, to fetch content only if the content has been modified from the cached version.
If-None-Match: <tags>
Instead of matching on last-modified date, the server may provide special tags (see “ETag”)on the document that act like serial numbers. The If-None-Match header performs the requested method if the cached tags differ from the tags in the server’s document.
(1) If-Modified-Since
若server回复的报头中存在“Last-Modified”,那么客户端一定要在下一次请求报头中包含“If-Modified-Since”,所以 说,这两个头部是相互对应的。那么当服务器收到客户端回复的“If-Modified-Since”头部之后会如何处理呢?首先服务器通过比较这两个时 间,若“Last-Modified”更大,表明客户端缓存中的内容已经过时,此时server会将最新的文档(附上新的Header)返回给客户端,并 且状态码为200;否则认为客户端缓存中的内容仍然是最新的,只需向客户端返回304状态码,同时包含最新的HTTP头部。下图比较形象地显示了这两种处 理情况。
(2) If-None-Match
可以明显看出,“If-Modified-Since”实现重验证主要是通过比较时间来完成的,但是在某些情况下,它并不能十分凑效:
☉服务器上的文档被后台进程周期性地重写,此时虽然日期发生了变化,但是内容却没有发生任何改变;
☉虽然服务器上的内容发生了改变,但是却只是一些不太重要的信息,比如说拼写错误等等,这样就导致文 档在客户端重载,显然开销过大;
☉一些web服务器上很难精确计算出文档的修改日期;
☉对于实时系统而言(文档修改在很短的时间内完成),显然也显得无能为力。
基于以上几点,HTTP规范定义了另外一种方式,即比较文档标签(Entity tags, Etags).它的基本思想是为每一个文档生成一个Etag,它可以是某个序列号、版本号或者检验。同样“If-None-Match”头部是与 server端的“Etag”头部是相对应的,这样server端只需要比较标签号就可以判断出客户端缓存中的文档是否是最新的,其处理方式与“If- Modified-Since”类似,下图是服务器与客户端的一种交互情况:4. 缓存控制 重点部分!
HTTP规范中定义了服务器如何约束、限制客户端缓存的头部,按照优先级分别有:
Cache-Control: no-store
Cache-Control: no-cache
Cache-Control: must-revalidate
Cache-Control: max-age
Expires
(1) no-store, no-cache头
“no-store”头是用来禁止客户端缓存来自于server的回复。当客户端收到来自于server的回复之后,客户端缓存一边将回复转发给客户端,随后进行删除。
“no-cache”头却不能阻止客户端将来自于server的回复缓存于本地,但是它限制本地cache不能在没有与远端server执行一致性检查的前提下直接响应用户。
【注意】从字面意思来讲,的确前者更加苛刻,然而不同的浏览器, 在具体实现时,却可能表现出不一样的行为。比如当IE浏览器收到“no-cache”头部的回复之后,它会一直与远端server做一致性检查;然而 Firefox则不是这样,“no-cache”头部对它毫无作用,直接从缓存中响应用户请求,但是“no-store”头部却能起到相应的作用,因此, 为了达到禁止本地缓存的目的,同时又要兼顾到浏览器的差异,server端应该同时回复“no-cache”和“no-store”头部。另外为了与 HTTP/1.0兼容,需要加上“Pragma: no-cache”头部。
(2) must-revalidate头
“must-revalidate”头是为了要求缓存在响应用户请求之前一定要先保证缓存中的文档副本是最新的。
(3) max-age与Expires头
二者均是为了定义文档的过期时间,在客户端处理时,“max-age”均有更高的优先级,若max-age=0,则表示不能缓存文档或者每次访问缓存时前必须执行一致性检查。
5. 不同浏览器下页面刷新的问题
本节主要是阐述在执行“F5”,“Ctrl+F5”等操作时各种浏览器的反映。F5通常是驱使浏览器去执行一次一致性检查;而“Ctrl+F5”则是在删除本地缓存的前提下,并驱使浏览器去执行一致性检查。上图很好地总结了不同浏览器的反映情况,如对于Firefox,当执行F5时,会触发浏览器发出“If-Modified-Since”和 “Cache-Control:max-age=0”头部的发送,当然这些都不是绝对的,例如当本地缓存为空时,如去执行F5,其实作用类似于 Ctrl+F5。