robot

什么是Robots协议(robots.txt)？
Robots协议是国际互联网界通行的道德规范，网站通过它告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令，故需要搜索引擎自觉遵守。
Robots协议(robots.txt)的基本语法是什么，它是如何奏效的？
当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。
基本语法
robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。
User-agent:描述搜索引擎robot的名字
即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效可用通配符 *表示全部
Disallow: 描述不希望被访问的一组URL
设定禁止访问的部分，可以用完整url，也可以用相对路径，可以是单个目文件，也可以是整个文件夹，也可以用通配符限定指定类型
Allow: 描述希望被访问的一组URL
设定允许访问的部分，不过因为默认是全部允许的，这个语法通常是配合disallow使用的，用它来完成如“除了xxx.html该目录下全部不能访问”这样的设定。要注意的是allow和disallow的顺序是有讲究的，搜索引擎会以它先看到的规则为判断标准。
Sitemap:指示蜘蛛去爬取网站的sitemap文件
关于通配符:"$" 匹配行结束符;"*"匹配0或多个任意字符。
怎么书写一个保护网站隐私的Robots协议(robots.txt)？
下面廊坊seo小A以我的网站国际电梯网为例，教大家最基本的Robots协议(robots.txt)的写法。通过Robots协议(robots.txt)，小A我主要想实现的效果是：
1.要求所有搜索引擎遵循我的这个协议
2.禁止蜘蛛抓取我的后台地址和typecho的安装路径。
3.指引蜘蛛去抓取我的sitemap
那么我可以这样书写我的Robots协议(robots.txt)
User-agent: *
Disallow: /admin/
Disallow: /install/
Sitemap:http://www.weee.cc/sitemap.xml
大家来看我书写的这个robots.txt文件后，它告诉搜索引擎不要收录/admin/和/install/这两个目录，搜索引擎是按照指定去执行了，然而对于咱们的网络爱好都来说，很容易就能看出这两个目录是什么来，根据这两条规则便轻松发现了这个网站的后台管理目录。
那么我们该如何来保护网站后台信息呢？这里廊坊seo小A以我的博客101011来介绍两种书写方法，我要禁掉的是/seo-admin/和/seo-install/这两个目录
1. 将robots.txt中的后台目录信息去掉，采用泛指的方法。
User-agent: *
Disallow: /seo或 Disallow:/seo*/
Sitemap:http://seo.qjzb.net/sitemap.xml
这种写法并不是禁止收录/seo目录也是禁止收录/seo开头的网页，因此 /seo-admin/也属于不被爬行和收录的行列了，保护了网站隐私。
2.将robots.txt换种写法采用允许某些目录的方法，即允许的全部列出，其它全部采用不允许，好比只许访问/bbs 和 /seo目录
User-agent: *
Allow: /bbs/
Allow: /seo/
Disallow: /
Sitemap:http://seo.qjzb.net/sitemap.xml
robots.txt按照顺序执行，一定要把Allow写在上面，否则整站都不允许收录了
按照这两种方法我们就可以保护我们网站的隐私了。

posted @ 2012-12-28 08:55 sgsheg 阅读(274) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

sgsheg

robot

公告