设置搜索引擎不收录的方法

有的时候，站长们希望自己网站内的某些内容不要被搜索引擎的蜘蛛爬取，设置搜索引擎不收录，原因有以下几点：第一，蜘蛛的抓取会增加服务器的负担，导致一部分用户体验不佳；第二，某一些信息需要权限才可以查看；第三，某一些网页保护隐私信息，站长不希望其被搜索引擎收录而让某些用户访问到........

这个时候有以下的方法来设置：

第一种方法最为常见，就是设置robots.txt文件，这个文件一般是放在网站的根目录下面，它里面有两个主要字段，分别是User-agent和Disallow。User-agent是设定哪些搜索引擎的蜘蛛能够爬取，每一个搜索引擎都有自己的一个名字，如百度的蜘蛛叫做BaiduSpider，谷歌的蜘蛛叫做GoogleBot。只要在User-agent之后加上蜘蛛的名字，这个蜘蛛就可以爬取，如果允许所有的蜘蛛爬取，那么设置为User-agent：* 就可以了。Disallow是定义那些网页不可以被捉取，如果其单独列出来某网页的名称，标明该网页不可以捉取；若是以文件夹的形式，则表示整个文件夹里面的东西都不可以捉取。

如设置所有的搜索引擎都可收录，但不能爬取a.html和b.php以及c文件夹的方法如下图：

第二种方法就是在连接上面加上rel=nofllow标签，这样蜘蛛爬取的时候就会跳过这些页面，可是当对多数页面采取这种发发时，工作量就比较大。

posted @ 2013-03-17 00:30 博客园的耗子阅读(243) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

耗子

小耗子

设置搜索引擎不收录的方法

公告