Servlet/JSP如何控制页面缓存于squid中
近段时间在研究如何将Servlet/JSP中的伪动态页面缓存到Squid中来加速Web访问,在google上搜索"JSP在squid中的缓存"的信息,出来的信息比较少,后来差PHP,ASP的缓存相关资料及"深入体验JAVA Web开发内幕——核心基础.pdf"和"Squid中文权威指南"中的相关章节,总算实现了这个目的(有需要这两本书的兄弟可以mail我)。基于自己的一些理解和试验成果,记下来供以后参考。
HTML的HTTP协议头信息中控制着页面在几个地方的缓存信息,包括浏览器端,中间缓存服务器端(如:squid等),Web服务器端。本文讨论头信息 中带缓存控制信息的HTML页面(JSP/Servlet生成好出来的也是HTML页面)在中间缓存服务器中的缓存情况。
HTTP协议中关于缓存的信息头关键字包括Cache-Control(HTTP1.1),Pragma(HTTP1.0),last-Modified,Expires等。
HTTP1.0中通过Pragma 控制页面缓存,可以设置:Pragma或no-cache。网上有非常多的文章说明如何控制不让浏览器或中间缓存服务器缓存页面,通常设置的值为no- cache,不过这个值不这么保险,通常还加上Expires置为0来达到目的。但是如我们刻意需要浏览器或缓存服务器缓存住我们的页面这个值则要设置为 Pragma。
HTTP1.1中启用Cache-Control 来控制页面的缓存与否,这里介绍几个常用的参数:
- no-cache,浏览器和缓存服务器都不应该缓存页面信息;
- public,浏览器和缓存服务器都可以缓存页面信息;
- no-store,请求和响应的信息都不应该被存储在对方的磁盘系统中;
- must-revalidate,对于客户机的每次请求,代理服务器必须想服务器验证缓存是否过时;
- max-age=xxx,s-max-age=xxx,替代Expires,表示应该在xxx秒后认为页面过时,后者指示代理服务器中缓存(通常称为共享缓存)的页面过期时间。(不过我试了好多次,这个选项一直没法实现,希望有人能补充!)
通常我们不需要缓存页面时设置该值为"no-cache,no-store,must-revalidate"(分三行代码设置);需要缓存页面信息时则设置该值为"public,max-age,s-max-age"。
Last-Modified只页面的最后生成时间,GMT格式;
Expires过时期限值,GMT格式,指浏览器或缓存服务器在该时间点后必须从真正的服务器中获取新的页面信息;
上面两个值在JSP中设置值为字符型的GMT格式,无法生效,设置long类型才生效;
最后来看一下JSP或Servlet中如何设置缓存控制信息的代码:
- //本页面允许在浏览器端或缓存服务器中缓存,时限为10秒。
- java.util.Date date = new java.util.Date();
- response.setDateHeader("Last-Modified",date.getTime());
- response.setDateHeader("Expires",date.getTime()+10000);
- response.setHeader("Cache-Control", "public");
- response.setHeader("Pragma", "Pragma");
- //不允许浏览器端或缓存服务器缓存当前页面信息。
- response.setHeader( "Pragma", "no-cache" );
- response.setDateHeader("Expires", 0);
- response.addHeader( "Cache-Control", "no-cache" );
- response.addHeader( "Cache-Control", "no-store" );
- response.addHeader( "Cache-Control", "must-revalidate" );
如果HTML页面信息中包括了Expires头信息,则其相关的缓存机制不再处理该页面,而是安装页面的缓存控制要求来处理。所以做了上述工作后,Squid无需做任何配置上的修改(指Squid的refresh_pattern指令不处理这些页面 )。
下面说一下Squid缓存一些静态资源的一些原理,Squid通过refresh_pattern指令来控制用户请求是否命中。
"Squid中文权威指南"文章中描述Squid的refresh_pattern 指令一段文章读起来非常的拗口,就是LM_factor比率的算法,这个算法的概念翻译的比较模糊,网络上传来传去的,感觉都是搞不清楚,后来参 考"OReilly - Squid The Definitive Guide.chm"英文原文,总算明白过来 。
- Responses that fall between the minimum and maximum are subject to Squid's
- last-modified factor (LM-factor) algorithm. For such responses, Squid calculates
- the response age and the LM-factor and compares it to the percent value. The
- response age is simply the amount of time passed since the origin server
- generated, or last validated, the response. The resource age is the difference
- between the Last-Modified and Date headers. The LM-factor is the ratio of the
- response age to the resource age.
- LM-factor的定义是(response age)/(the resource age).
- 其中response age是指HTTP头信息中的age信息。
- resource age是指HTTP头信息中的Date值减去Last-Modified的值转化为秒的值。
- 各位可以通过curl命令(Linux下自带命令)来参看一个资源返回回来的HTTP头详细信息,如下面这样:
- curl -I http://10.0.85.125:8384/mailproxy/welcome.htm
经过试验,这个算法是正确的,同时这里要提醒一下,特别是对一些HTML类型的资源,max值不要设置的太大,如果设置的太大的话,有可能修改的文档信息 需要非常长的时间才能得到更新,因为LM-factor参数值是变化的,越来越大,分母变大的结果就是比率越来越小,总是小于我们设定的比率,导致需要 max来控制页面刷新。