摘要: 1、检查robots.txt 让爬虫了解爬取该网站时存在哪些限制。 最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索。 2、检查网站地图(robots.txt文件中发现的Sitemap文件) 帮助爬虫定位网站最新的内容,而无须爬取每一个网页。 网站地图提供了所有网页的链接,我们仍需对其谨慎处 阅读全文
posted @ 2018-04-13 12:48 叶建成 阅读(10199) 评论(0) 推荐(1) 编辑