巴适的哼

2020年4月21日

摘要： WebCollector自带一个Proxys类，通过Proxys.nextRandom()方法可以随机获取加入的代理。通过Proxys.add(“ip”,”端口号”);添加代理。如果本机也参与http请求，可用Proxys.addEmpty()方法将本机加入。覆盖Crawler的getResp 阅读全文

posted @ 2020-04-21 09:17 巴适的哼阅读(604) 评论(0) 推荐(0) 编辑

使用OkHttpClient爬取json数据

摘要：一、爬取URL链接是get请求比如：这是taptap游戏厂商排行榜网，现在就可以使用OkHttpClient根据这个url爬取到json的字符串代码如下：接下来就简单了，使用JSON转化将result转化为实体类，比如使用import com.alibaba.fastjson.JSON;中阅读全文

posted @ 2020-04-21 09:16 巴适的哼阅读(630) 评论(0) 推荐(0) 编辑

动态代理Ip爬取数据结合Jsoup

摘要：如果爬取数据的量很大，而且使用代理Ip封号很频繁，那么就应该考虑动态代理ip,如果这个Ip访问不了，就换下一个ip继续爬取数据。用于动态ip代理的工具类HttpUtils，代码如下：上图中的“D:\\ips.txt”如下图所示，都是代理Ip,全部集合在一起，方便换取。用于获取document对阅读全文

posted @ 2020-04-21 09:12 巴适的哼阅读(698) 评论(0) 推荐(0) 编辑

公告