随笔分类 -  webmagic

摘要: 阅读全文
posted @ 2017-04-08 19:02 飞丸亻 阅读(2469) 评论(0) 推荐(0) 编辑
摘要:下面是webmagic官方的默认实现HttpClientDownloader中的下载方法。 上面第一个标黄的方法,构造org.apache.http.client.methods.HttpUriRequest。这是一个挺重要的方法,这里面涉及到各种请求头文件之类的东西。 还有最重要的代理ip这里也是 阅读全文
posted @ 2017-04-07 00:48 飞丸亻 阅读(2342) 评论(0) 推荐(0) 编辑
摘要:在spider类中有三个方法可以初始化startRequests。可以对这些地方进行扩展。 阅读全文
posted @ 2017-04-07 00:16 飞丸亻 阅读(504) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示