robot

什么是Robots协议(robots.txt)?
Robots协议是国际互联网界通行的道德规范,网站通过它告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。
Robots协议(robots.txt)的基本语法是什么,它是如何奏效的?
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
基本语法
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
User-agent:描述搜索引擎robot的名字
即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效 可用通配符 *表示全部
Disallow: 描述不希望被访问的一组URL
设定禁止访问的部分,可以用完整url,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型
Allow: 描述希望被访问的一组URL
设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。 要注意的是allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。
Sitemap:指示蜘蛛去爬取网站的sitemap文件
关于通配符:"$" 匹配行结束符;"*"匹配0或多个任意字符。
怎么书写一个保护网站隐私的Robots协议(robots.txt)?
下面廊坊seo小A以我的网站国际电梯网为例,教大家最基本的Robots协议(robots.txt)的写法。通过Robots协议(robots.txt),小A我主要想实现的效果是:
1.要求所有搜索引擎遵循我的这个协议
2.禁止蜘蛛抓取我的后台地址和typecho的安装路径。
3.指引蜘蛛去抓取我的sitemap
那么我可以这样书写我的Robots协议(robots.txt)
User-agent: *
Disallow: /admin/
Disallow: /install/
Sitemap:http://www.weee.cc/sitemap.xml
大家来看我书写的这个robots.txt文件后,它告诉搜索引擎不要收录/admin/和/install/这两个目录,搜索引擎是按照指定去执行了,然而对于咱们的网络爱好都来说,很容易就能看出这两个目录是什么来,根据这两条规则便轻松发现了这个网站的后台管理目录。
那么我们该如何来保护网站后台信息呢?这里廊坊seo小A以我的博客101011来介绍两种书写方法,我要禁掉的是/seo-admin/和/seo-install/这两个目录
1. 将robots.txt中的后台目录信息去掉,采用泛指的方法。
User-agent: *
Disallow: /seo或 Disallow:/seo*/
Sitemap:http://seo.qjzb.net/sitemap.xml
这种写法并不是禁止收录/seo目录也是禁止收录/seo开头的网页,因此 /seo-admin/也属于不被爬行和收录的行列了,保护了网站隐私。
2.将robots.txt换种写法采用允许某些目录的方法,即允许的全部列出,其它全部采用不允许,好比只许访问/bbs 和 /seo目录
User-agent: *
Allow: /bbs/
Allow: /seo/
Disallow: /
Sitemap:http://seo.qjzb.net/sitemap.xml
robots.txt按照顺序执行,一定要把Allow写在上面,否则整站都不允许收录了
按照这两种方法我们就可以保护我们网站的隐私了。

 

posted @ 2012-12-28 08:55  sgsheg  阅读(274)  评论(0编辑  收藏  举报