robots.txt文件格式详解
2010-11-18 20:36 Hundre 阅读(5570) 评论(0) 编辑 收藏 举报在说明ROTBOT文件的编写语法前先来了解几个重要的概念!
1.
baiduspider是Baidu搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用户能在Baidu搜索引擎中搜索到贵网站的网页。
2.
baiduspider访问您的网页后,会自动分析每个网页上的文字内容并记忆网页网址,然后其它网友才能通过百度搜索引擎找到您的网页。如果baiduspider不访问您的网页,那么所有通过baiduspider提供网页信息的搜索引擎都找不到您的网页,也就是说,其它网友在百度搜狐新浪雅虎Tom等几十个搜索网站都会找不到您的网页。
您可以到这里进一步了解搜索引擎。
3.
对于一个网站,baiduspider每访问一个网页会间隔30秒,不会造成过大压力。
4.
baiduspider象其它spider一样遵守互联网robots协议。您可以利用robots.txt文件完全禁止baiduspider访问您的网站,或者禁止baiduspider访问您网站上的部分文件。
注意:禁止baiduspider访问您的网站,将使您的网站上的所有网页,在Baidu搜索引擎以及所有Baidu提供搜索引擎服务的搜索引擎中无法被搜索到,包括搜狐、新浪、雅虎、Tom、Lycos等几十个搜索引擎。
关于robots.txt的写作方法,请参看我们的介绍:robots.txt写作方法
5.
因为搜索引擎索引数据库的更新需要时间。虽然baiduspider已经停止访问您网站上的网页,但Baidu搜索引擎数据库中已经建立的网页索引信息,可能需要2到4周才会清除。
6.
Baidu搜索引擎平均两周更新一次,网页视重要性有不同的更新率,少则几天,多则1月,baiduspider会重新访问和更新一个网页。
7.
baiduspider,全部为小写字母。完全禁止baiduspider访问的robots文件内容为:
User-agent:
Disallow:
robots.txt的语法
“robots.txt“文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,
“<field>:<optionalspace><value><optionalspace>“。
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎robot的名字,在“robots.txt“文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在“robots.txt“文件中,
Disallow
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow
任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在“/robots.txt“文件中,至少要有一条Disallow记录。如果
下面是一些robots.txt基本的用法:
l
User-agent:
Disallow:
l
User-agent:
Disallow:
或者也可以建一个空文件
l
User-agent:
Disallow:
Disallow:
Disallow:
l
User-agent:
Disallow:
l
User-agent:
Disallow:
User-agent:
Disallow:
3、
名称
Baiduspider
Scooter
ia_archiver
Googlebot
FAST-WebCrawler
Slurp
MSNBOT
4、
下面是一些著名站点的robots.txt:
http://www.cnn.com/robots.txt
http://www.google.com
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt
5、
l
错误写成
User-agent:
Disallow:
正确的应该是:
User-agent:
Disallow:
l
例如,错误地写成
Disallow:
正确的应该是
Disallow:
Disallow:
Disallow:
l
例如写成
Disallow:
尽管在标准没有谈到这个,但是这种方式很容易出问题。
l
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。
l
USER-AGENT:
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:
l
错误的写法是:
User-agent:
Disallow:
allow:
l
错误的写做:
User-agent:
Disallow:
正确的应该是
User-agent:
Disallow:
下面一个小工具专门检查robots.txt文件的有效性:
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
二、
1、什么是Robots
Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots
<title>时代营销--网络营销专业门户</title>
<meta
<meta