robots.txt在网站的根目录下

遵守

自动或人工识别robots.txt再进行内容爬取

 

约束性:建议性,不遵守协议,存在法律风险。

 

基本语法:

User-agent: *

Disallow: /

#注释 *所有  /代表根目录