1.robots.txt文件:禁止用户代理为BadCrawler的爬虫爬取该网站信息,详细信息http://www.robotstxt.org/robotstxt.html
2.#section 1
①代理跟许可
User-agent:BadCrawler
Disallow:/
***User-agent:代理用户;Disallow:排除的URL***
User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/~joe/ ***上面参数中排除了三个目录*** ***每个要排除的URL都需要一个Disallow,不能全部写在一个Disallow中***全局表达式和正则表达式是不在用户代理或不允许行中支持。用户代理中的'*'是一个特殊的值,意思是“任何机器人”。具体来说,就不能有像“User-agent:bot*、disallow:/tep/*、disallow:*.gif”这样的行***
②将所有机器人排除在整个服务器之外
User-agent:*
Disallow:/
③允许所有机器人访问:或者创建一个空的robots文件或者直接不使用robots文件
User-agent:*
Disallow:
④将所有机器人排除在服务器的一部分之外
User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/junk/
⑤排除单个机器人
User-agent:BadBot
Disallow:/
⑥允许一个机器人
User-agent:Google
Disallow:
⑦排除一个文件以外的所有文件:将所有不允许的文件放到一个单独的目录中,例如“Stuff”,然后将一个文件保存在这个目录智商的级别上
User-agent:*
Disallow:/~fool/Stuff/
⑧禁止所有页面
User-agent:* Disallow:/~joe/junk.html Disallow:/~joe/foo.html ---------------------------
***无论是哪种用户代理,都应该在两次下载请求之间有5秒的延迟,/trap连接是禁止链接,如果访问了这个链接,服务器就会禁封你的IP一分钟或者永久***
User-agent:* Crawl-delay:5 Disallow:/trap
3.#section 3
①Sitemap文件说明:http://example.webscraping.com/sitemap.xml
--1.Sitemap:网站地图,配置在robots.txt文件中,标签为“<urlset>...</urlset>”