查看服务器日志文件的作用
对于自己有服务器的朋友或是有条件可以看到服务器日志文件的朋友来说,无疑是了 解搜索引擎工作原理和搜索引擎对网页抓取频率的最佳途径。
通过这个文件,您可以了解什么搜索引擎、什么时间、抓取了哪些页面,以及可以知 道是主搜索蜘蛛还是从搜索蜘蛛抓取了您的网站等的信息。
访问原理
1、客户端(浏览器)和Web服务器建立TCP连接,连接建立以后,向Web服务器发出 访问请求(如:Get),根据HTTP协议该请求中包含了客户端的IP地址、浏览器类型、 请求的URL等一系列信息。
2、Web服务器收到请求后,将客户端要求的页面内容返回到客户端。如果出现错误,那么返回错误代码。
22、服务器端将访问信息和错误信息纪录到日志文件里。
下面我们就对本公司自己服务器其中的一个日志文件进行分析。由于文件比较长,所以我们只拿出典型的几种情况来说明。
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2006-05-12 03:56:30
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2006-05-12 03:56:30 ************** 218.25.92.169 GET / - 80 - 220.181.18.98 Baiduspider+(+http://www.baidu.com/search/spider.htm) 403 14 5
/* 说明 */
上面定义了在2006年5月12日的3点56分30秒的时候,IP为220.181.18.98的百度蜘蛛通过80端口(HTTP)访问了IP为218.25.92.169的服务器的根目录,但被拒绝。
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2006-05-12 10:18:39
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2006-05-12 10:33:36 ************** 218.25.92.169 GET /***/index.htm - 80 - 10.2.57.6 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) 200 0 0
2006-05-12 10:33:36 ************** 218.25.92.169 GET /***/***/***.gif - 80 - 10.2.57.6 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) 200 0 0
/* 说明 */
上面定义了在2006年5月12日的10点33分36秒的时候,IP为10.2.57.6的用户正常访问了网站**************中***目录下的index.htm页和***/***下的***。gif图片。
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2006-05-12 13:17:46
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2006-05-12 13:17:46 ************** 218.25.92.169 GET /robots.txt - 80 - 66.249.66.72 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 404 0 2
2006-05-12 13:17:46 ************** 218.25.92.169 GET / - 80 - 66.249.66.72 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 403 14 5
/* 说明 */
上面定义了在2006年5月12日的13点17分46秒的时候,IP为66.249.66.72的Google蜘蛛访问了robots.txt文件,但没有找到此文件,有访问了此网站的根目 录,但被拒绝。
现在也有很多日志分析工具,如果您的服务器流量很大的话,作者推荐使用分析工具来分析服务器日志。
信息来源:海马科技 发布日期:2006-05-27 最后更新:2006-05-28
本文为本站原创文章,如若转载请保留版权