robots

百度百科：robots

有更详细的介绍。

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

robots是站点根目录下的robots.txt文件。

文件设置内容指定蜘蛛可以访问的范围。

使用示例：

1. 允许所有SE收录本站：robots.txt为空就可以，什么都不要写。

2. 禁止所有SE收录网站的某些目录：

　　User-agent: *

　　Disallow: /目录名1/

　　Disallow: /目录名2/

　　Disallow: /目录名3/

3. 禁止某个SE收录本站，例如禁止百度：

　　User-agent: Baiduspider

　　Disallow: /

4. 禁止所有SE收录本站：

　　User-agent: *

　　Disallow: /

5，允许访问文件：

　　Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

6，禁止访问图片：

　　User-agent: *

　　Disallow: .jpg$

　　jpg可以代替为gif，png 等等...

posted on 2018-10-09 10:06 荆棘人阅读(392) 评论(0) 收藏举报

刷新页面返回顶部

荆棘人