爬取代理服务器,刷网页浏览量

因为爬取的免费ip,可以用的很少,所以自己利用ccproxy在 某云服务器上开了个代理服务器,测试结果如图:

 

主要有以下几步(至于访问量根据可用代理ip定):

1.在服务器上写一个模拟的http服务器,打印访问的客户端ip

2.在通过CCProxy服务器上启动一个代理端口

3.通过httpclient完成代理,看到网上说基于JVM的代理不行,经过测试真的不行(正在研究为什么.....................

System.getProperties().setProperty("proxySet", "true");
System.getProperties().setProperty("http.proxyHost", "118.25.191.17");
System.getProperties().setProperty("http.proxyPort", "1111");


4.爬取ip需要用正则表达式,验证代理ip的可用性主要是通过两种方式:(1)爬数据时传一个能刷新的参数(需要F12自己找),网站会检测ip响应时间(2)自己写代码验证

每个网站浏览量统计方法不一样,需要具体分析
代码整理出来,再放上来
posted @ 2018-09-07 17:07  王者峡谷的码农  阅读(15784)  评论(0编辑  收藏  举报