2018 年 4月 13 日随笔档案 - 叶建成

2018年4月13日

摘要： 1、检查robots.txt 让爬虫了解爬取该网站时存在哪些限制。最小化爬虫被封禁的可能，而且还能发现和网站结构相关的线索。 2、检查网站地图（robots.txt文件中发现的Sitemap文件）帮助爬虫定位网站最新的内容，而无须爬取每一个网页。网站地图提供了所有网页的链接，我们仍需对其谨慎处阅读全文

posted @ 2018-04-13 12:48 叶建成阅读(10199) 评论(0) 推荐(1) 编辑

Jacen's Blog

公告