设置搜索引擎不收录的方法

    有的时候,站长们希望自己网站内的某些内容不要被搜索引擎的蜘蛛爬取,设置搜索引擎不收录,原因有以下几点:第一,蜘蛛的抓取会增加服务器的负担,导致一部分用户体验不佳;第二,某一些信息需要权限才可以查看;第三,某一些网页保护隐私信息,站长不希望其被搜索引擎收录而让某些用户访问到........

     这个时候有以下的方法来设置:

     第一种方法最为常见,就是设置robots.txt文件,这个文件一般是放在网站的根目录下面,它里面有两个主要字段,分别是User-agent和Disallow。User-agent是设定哪些搜索引擎的蜘蛛能够爬取,每一个搜索引擎都有自己的一个名字,如百度的蜘蛛叫做BaiduSpider,谷歌的蜘蛛叫做GoogleBot。只要在User-agent之后加上蜘蛛的名字,这个蜘蛛就可以爬取,如果允许所有的蜘蛛爬取,那么设置为User-agent:*  就可以了。Disallow是定义那些网页不可以被捉取,如果其单独列出来某网页的名称,标明该网页不可以捉取;若是以文件夹的形式,则表示整个文件夹里面的东西都不可以捉取。

   如设置所有的搜索引擎都可收录,但不能爬取a.html和b.php以及c文件夹的方法如下图:

设置搜索引擎不收录的方法

   第二种方法就是在连接上面加上rel=nofllow标签,这样蜘蛛爬取的时候就会跳过这些页面,可是当对多数页面采取这种发发时,工作量就比较大。

posted @ 2013-03-17 00:30  博客园的耗子  阅读(243)  评论(0编辑  收藏  举报