python爬虫中robots.txt和Sitemap文件的理解

1.robots.txt文件：禁止用户代理为BadCrawler的爬虫爬取该网站信息，详细信息http://www.robotstxt.org/robotstxt.html

2.#section 1

①代理跟许可

User-agent:BadCrawler
Disallow:/

***User-agent:代理用户；Disallow:排除的URL***

User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/~joe/
***上面参数中排除了三个目录***
***每个要排除的URL都需要一个Disallow，不能全部写在一个Disallow中***全局表达式和正则表达式是不在用户代理或不允许行中支持。用户代理中的'*'是一个特殊的值，意思是“任何机器人”。具体来说，就不能有像“User-agent:bot*、disallow:/tep/*、disallow:*.gif”这样的行***

②将所有机器人排除在整个服务器之外

User-agent:*
Disallow:/

③允许所有机器人访问：或者创建一个空的robots文件或者直接不使用robots文件

User-agent:*
Disallow:

④将所有机器人排除在服务器的一部分之外

User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/junk/

⑤排除单个机器人

User-agent:BadBot
Disallow:/

⑥允许一个机器人

User-agent:Google
Disallow:

⑦排除一个文件以外的所有文件：将所有不允许的文件放到一个单独的目录中，例如“Stuff”，然后将一个文件保存在这个目录智商的级别上

User-agent:*
Disallow:/~fool/Stuff/

⑧禁止所有页面

User-agent:*
Disallow:/~joe/junk.html
Disallow:/~joe/foo.html
---------------------------

***无论是哪种用户代理，都应该在两次下载请求之间有5秒的延迟，/trap连接是禁止链接，如果访问了这个链接，服务器就会禁封你的IP一分钟或者永久***

User-agent:*
Crawl-delay:5
Disallow:/trap

3.#section 3

①Sitemap文件说明：http://example.webscraping.com/sitemap.xml

--1.Sitemap:网站地图，配置在robots.txt文件中，标签为“<urlset>...</urlset>”

posted on 2018-12-19 14:57 ArSang-Blog 阅读(714) 评论(0) 编辑收藏举报