查看IIS日志 各大搜索引擎是否访问网站

分析IIS日志:
例:123.125.71.113 – – [28/Sep/2010:07:15:11 -0700] “GET /wangzhan-youhua/maowenben.html HTTP/1.1″ 200 12864 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)” 
分析:
客户端IP======123.125.71.113
日期=========28/Sep/2010
时间=========07:15:11
动作=========GET
URI资源==== ==/wangzhan-youhua/maowenben.html(代表访问的资源是当前这个页面)
协议版本 ======HTTP/1.1
协议状态====== 200 (200表示抓取成功)
发送的字节数===12864(表示当前页面的大小)
”Baiduspider+(+http://www.baidu.com/search/spider.htm)”表示百度蜘蛛来抓取
一些常见的IIS状态代码为:
200 – 服务器成功返回网页
404 – 请求的网页不存在
503 – 服务器暂时不可用
IIS状态码含义:
2xx  抓取成功
200  正常;请求已完成。
201  正常;紧接 POST 命令。
202  正常;已接受用于处理,但处理尚未完成。
203  正常;部分信息 — 返回的信息只是一部分。
204  正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx  重定向
301  已移动 — 请求的数据具有新的位置且更改是永久的。
302  已找到 — 请求的数据临时具有不同 URI。
303  请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304  未修改 — 未按预期修改文档。
305  使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306  未使用 — 不再使用;保留此代码以便将来使用。
4xx  客户机中出现的错误
400  错误请求 — 请求中有语法问题,或不能满足请求。
401  未授权 — 未授权客户机访问数据。
402  需要付款 — 表示计费系统已有效。
403  禁止 — 即使有授权也不需要访问。
404  找不到 — 服务器找不到给定的资源;文档不存在。
407  代理认证请求 — 客户机首先必须使用代理
对Seoer来说,IIS访问日志是必须了解的SEO基础,不仅需要了解IIS日志状态码含义,而且还需要了解各大搜索引擎爬虫(蜘蛛Robot)名称。通过IIS日志我们可以了解到蜘蛛爬取情况及网站流量访问情况,所以,如果你是一个成功的seo人员,那你必须对于对于iis日志状态代码学会分析,知道蜘蛛什么时候来爬行,摸索蜘蛛的习惯。
上面的介绍不止局限百度的搜索引擎,可以看看“Baiduspider+(+http://www.baidu.com/search/spider.htm)” 就可以知道是那个搜索引擎了。

 

附:IIS日志中记录的字段及详细说明

date:发出请求时候的日期。

time:发出请求时候的时间。注意:默认情况下这个时间是格林威治时间,比我们的北京时间晚8个小时,下面有说明。

c-ip:客户端IP地址。

cs-username:用户名,访问服务器的已经过验证用户的名称,匿名用户用连接符-表示。

s-sitename:服务名,记录当记录事件运行于客户端上的Internet服务的名称和实例的编号。

s-computername:服务器的名称。

s-ip:服务器的IP地址。

s-port:为服务配置的服务器端口号。

cs-method:请求中使用的HTTP方法,GET/POST。

cs-uri-stem:URI资源,记录做为操作目标的统一资源标识符(URI),即访问的页面文件。

cs-uri-query:URI查询,记录客户尝试执行的查询,只有动态页面需要URI查询,如果有则记录,没有则以连接符-表示。即访问网址的附带参数。

sc-status:协议状态,记录HTTP状态代码,200表示成功,403表示没有权限,404表示找不到该页面,具体说明在下面。

sc-substatus:协议子状态,记录HTTP子状态代码。

sc-win32-status:Win32状态,记录Windows状态代码。

sc-bytes:服务器发送的字节数。

cs-bytes:服务器接受的字节数。

time-taken:记录操作所花费的时间,单位是毫秒。

cs-version:记录客户端使用的协议版本,HTTP或者FTP。

cs-host:记录主机头名称,没有的话以连接符-表示。注意:为网站配置的主机名可能会以不同的方式出现在日志文件中,原因是HTTP.sys使用Punycode编码格式来记录主机名。

cs(User-Agent):用户代理,客户端浏览器、操作系统等情况。

cs(Cookie):记录发送或者接受的Cookies内容,没有的话则以连接符-表示。

cs(Referer):引用站点,即访问来源。

posted @ 2013-09-05 21:22  不再犹豫、  阅读(467)  评论(0编辑  收藏  举报