网站服务器(Apache)的日志与监视

环境:Linux ubuntu 2.6.27-7 + PHP Version 5.3.2 + Apache/2.2.9

我们可以利用UNIX/Linux的一些工具和一此专门的日志分析工具对日志文件进行分析。
日志一方面是我们分析网站的第一手资料,一方面却是吞噬大量磁盘空间的罪魁祸首。所以别忘了定期转储或删除一些老的日志文件。

Web服务器日志轮循

Web服务器日志轮循比较好的方式有三种:第一种方法是利用Linux系统自身的日志文件轮循机制logrotate;第二种方法是利用Apache自带的日志轮循程序rotatelogs;第三种是使用在Apache的FAQ中推荐发展已经比较成熟的一个日志轮循工具 cronolog(本文以此为例)。

对于大型的Web服务来说,往往使用实用负载均衡技术提高Web站点服务能力,这样后台有多个服务器提供Web服务,大大方便了服务的分布规划和扩展性。如果有多个服务器的分布需要对日志进行合并,统一进行统计分析。因此为了保证统计的精确性,需要严格按照每天的时段来自动生成日志。

用cronolog实现日志轮循

首先需要下载和安装cronolog,可以到http://www.cronolog.org下载最新版本的cronolog。下载完毕以后,解压安装即可。方法如下所示:

 

1 tar xvfz cronolog-1.6.2.tar.gz
2 cd cronolog-1.6.2
3 ./configure
4 make
5 make check
6 make install

 

在Ubuntu下直接apt-get install cronolog安装

这样就完成了cronolog的配置和安装,默认情况下cronolog是安装在/usr/local/sbin下。

修改Apache日志配置命令如下所示:

 

1 <VirtualHost *:80>
2 DocumentRoot /web/www/eetag.com
3 ServerName www.eetag.com
4 ServerAdmin webmaster@eetag.com
5 CustomLog "|/usr/local/sbin/cronolog /web/logs/eetag.com/%Y%m%d/%H/%M.log" combined
6 </VirtualHost>

 

生成日志和路径内容如下:/web/logs/eetag.com/20100929(年月日)/11(小时)/05.log(分)

 

1 119.145.71.82 - - [29/Sep/2010:11:08:04 +0800] "GET /c.php?a=roger HTTP/1.1" 200 - "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10"
2 119.145.71.82 - - [29/Sep/2010:11:08:04 +0800] "GET /c.php?a=roger HTTP/1.1" 200 - "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10"

 

 

1 LogFormat "%h\"%{%Y-%m-%d %H:%M:%S}t\"%q\"%{Referer}i\"%{User-agent}i" mysql 
2 SetEnvIf Request_URI \.gif$ gif-image
3 CustomLog "|/usr/local/sbin/hiidolog /web/logs/mall/%Y%m%d/%H/%M.log" mysql env=gif-image

 

从上面的日志文件可以看出,日志记录会记录客户端的IP地址、访问发生的时间、访问请求的页面、Web服务器对于该请求返回的状态信息、返回给客户端的内容的大小(以字节为单位)、该请求的引用地址、客户浏览器类型等信息。

自定义日志文件的内容格式

 

1 <VirtualHost *:80>
2 DocumentRoot /web/www/eetag.com
3 ServerName www.eetag.com
4 ServerAdmin webmaster@eetag.com
5 LogFormat "%a,%>s,%{%S}t,%q" rogerFormat //定义一个名叫rogerFormat的内容格式
6 CustomLog "|/usr/local/sbin/cronolog /web/logs/eetag.com/%Y%m%d/%H/%M.log" rogerFormat
7 </VirtualHost>

 

只记录图片访问日志

 

1 <VirtualHost *:80>
2 DocumentRoot /web/www/eetag.com
3 ServerName www.eetag.com
4 ServerAdmin webmaster@eetag.com
5 LogFormat "%a,%>s,%{%S}t,%q" rogerFormat //定义一个名叫rogerFormat的内容格式
6 SetEnvIf Request_URI \.gif$ gif-image
7 CustomLog "|/usr/local/sbin/cronolog /web/logs/eetag.com/%Y%m%d/%H/%M.log" rogerFormat  env=gif-image
8 </VirtualHost>

 

具体的日志格式,可以参考apache官方手册:http://httpd.apache.org/docs/2.2/mod/mod_log_config.html#formats

Apache文档已经给出了所有可用于格式串的变量及其含义,下面是其译文:

 

 1 %...a: 远程IP地址
 2 %...A: 本地IP地址
 3 %...B: 已发送的字节数,不包含HTTP头
 4 %...b: CLF格式的已发送字节数量,不包含HTTP头。例如当没有发送数据时,写入‘-’而不是0。
 5 %e: 环境变量FOOBAR的内容
 6 %...f: 文件名字
 7 %...h: 远程主机
 8 %...H 请求的协议
 9 %i: Foobar的内容,发送给服务器的请求的标头行。
10 %...l: 远程登录名字(来自identd,如提供的话)
11 %...m 请求的方法
12 %n: 来自另外一个模块的注解“Foobar”的内容
13 %o: Foobar的内容,应答的标头行
14 %...p: 服务器响应请求时使用的端口
15 %...P: 响应请求的子进程ID。
16 %...q 查询字符串(如果存在查询字符串,则包含“?”后面的部分;否则,它是一个空字符串。)
17 %...r: 请求的第一行
18 %...s: 状态。对于进行内部重定向的请求,这是指*原来*请求的状态。如果用%...>s,则是指后来的请求。
19 %...t: 以公共日志时间格式表示的时间(或称为标准英文格式)
20 %t: 以指定格式format表示的时间
21 %...T: 为响应请求而耗费的时间,以秒计
22 %...u: 远程用户(来自auth;如果返回状态(%s)是401则可能是伪造的)
23 %...U: 用户所请求的URL路径
24 %...v: 响应请求的服务器的ServerName
25 %...V: 依照UseCanonicalName设置得到的服务器名字
26 “...”表示一个可选的条件。如果没有指定条件,则变量的值将以“-”取代。分析前面来自默认httpd.conf文件的 LogFormat指令示例,可以看出它创建了一种名为“common”的日志格式,其中包括:远程主机,远程登录名字,远程用户,请求时间,请求的第一行代码,请求状态,以及发送的字节数。

 

 

posted @ 2012-06-28 17:02  subsir  阅读(1302)  评论(0编辑  收藏  举报