摘要: WebCollector自带一个Proxys类,通过Proxys.nextRandom()方法可以随机获取加入的代理。 通过Proxys.add(“ip”,”端口号”);添加代理。 如果本机也参与http请求,可用Proxys.addEmpty()方法将本机加入。 覆盖Crawler的getResp 阅读全文
posted @ 2020-04-21 09:17 巴适的哼 阅读(604) 评论(0) 推荐(0) 编辑
摘要: 一、爬取URL链接是get请求 比如: 这是taptap游戏厂商排行榜网,现在就可以使用OkHttpClient根据这个url爬取到json的字符串 代码如下: 接下来就简单了,使用JSON转化将result转化为实体类, 比如使用import com.alibaba.fastjson.JSON;中 阅读全文
posted @ 2020-04-21 09:16 巴适的哼 阅读(630) 评论(0) 推荐(0) 编辑
摘要: 如果爬取数据的量很大,而且使用代理Ip封号很频繁,那么就应该考虑动态代理ip,如果这个Ip访问不了,就换下一个ip继续爬取数据。 用于动态ip代理的工具类HttpUtils,代码如下: 上图中的“D:\\ips.txt”如下图所示,都是代理Ip,全部集合在一起,方便换取。 用于获取document对 阅读全文
posted @ 2020-04-21 09:12 巴适的哼 阅读(698) 评论(0) 推荐(0) 编辑