robots

 

百度百科:robots

有更详细的介绍。

 

 robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

robots是站点根目录下的robots.txt文件。

文件设置内容指定蜘蛛可以访问的范围。

 

使用示例:

1. 允许所有SE收录本站:robots.txt为空就可以,什么都不要写。
2. 禁止所有SE收录网站的某些目录:
  User-agent: *
  Disallow: /目录名1/
  Disallow: /目录名2/
  Disallow: /目录名3/
3. 禁止某个SE收录本站,例如禁止百度:
  User-agent: Baiduspider
  Disallow: /
4. 禁止所有SE收录本站:
  User-agent: *
  Disallow: /
5,允许访问文件:
  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
6,禁止访问图片:
  User-agent: *
  Disallow: .jpg$
  jpg可以代替为gif,png 等等...
 
 

posted on 2018-10-09 10:06  荆棘人  阅读(356)  评论(0编辑  收藏  举报

导航