robots
百度百科:robots
有更详细的介绍。
robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。
robots是站点根目录下的robots.txt文件。
文件设置内容指定蜘蛛可以访问的范围。
使用示例:
1. 允许所有SE收录本站:robots.txt为空就可以,什么都不要写。
2. 禁止所有SE收录网站的某些目录:
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/
3. 禁止某个SE收录本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
4. 禁止所有SE收录本站:
User-agent: *
Disallow: /
5,允许访问文件:
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
6,禁止访问图片:
User-agent: *
Disallow: .jpg$
jpg可以代替为gif,png 等等...