2012年11月9日

(转)玩玩小爬虫——抓取时的几个小细节

摘要: 原文地址:http://www.cnblogs.com/huangxincheng/archive/2012/11/08/2759752.html 这一篇我们聊聊在页面抓取时应该注意到的几个问题。一:网页更新 我们知道,一般网页中的信息是不断翻新的,这也要求我们定期的去抓这些新信息,但是这个“定期”该怎么理解,也就是多长时间需要抓一次该页面,其实这个定期也就是页面缓存时间,在页面的缓存时间内我们再次抓取该网页是没有必要的,反而给人家服务器造成压力。就比如说我要抓取博客园首页,首先清空页面缓存,从Last-Modified到Expires,我们可以看到,博客园的缓存时间是2分钟,而且... 阅读全文

posted @ 2012-11-09 11:41 黑子范 阅读(227) 评论(0) 推荐(0) 编辑

导航