加强对HEAD 请求的处理(转贴)
摘要:
最近发现有些搜索引擎爬虫在抓取数据的时候,先是通过一个HEAD 请求获取response的header 信息,然后再通过GET 请求获取response 的body信息(即页面的内容)——先发送HEAD 请求是为了获得页面的更新时间(即response header 中的Last-Modified ... 阅读全文
posted @ 2015-05-11 18:04 神奇的旋风 阅读(2365) 评论(0) 推荐(0) 编辑