爬虫超时解决的方法

做网络爬虫怕的就是超时,当恰恰出现最多的就是超时。那该怎么办呢!

1,HttpClient默认请求为3次,你能够改动成N次,建议依据实际情况改动

2。设置get方法请求超时为 5 秒

GetMethod getMethod=new GetMethod(url);     
getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000); 

3。设置 Http 连接超时为5秒

HttpClient httpClient=new HttpClient();   
httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(5000); 

4。将请求超时的链接储存在队列中,选择其它时间再次请求

5,代理IP地址请求重试

6,分时段请求链接

7,记录请求Log输出。解决坏死链接

待完好。续……

posted @ 2016-01-29 09:25  phlsheji  阅读(2942)  评论(0编辑  收藏  举报