随笔分类 -  网络爬虫

摘要:解决SSH证书问题: webClient.getOptions().setUseInsecureSSL(true);//解决ssh证书访问https的问题 阅读全文
posted @ 2016-11-08 17:35 陈泽泽 阅读(800) 评论(0) 推荐(0) 编辑
摘要:private WebClient getAWebClient() { WebClient webClient = new WebClient(BrowserVersion.FIREFOX_24); webClient.getOptions().setTimeout(20000); // webClient.getCookieManager().s... 阅读全文
posted @ 2016-11-08 15:42 陈泽泽 阅读(6457) 评论(0) 推荐(0) 编辑
摘要:Set allCookies = driver.manage().getCookies(); try { CookieStore cookiestore = new BasicCookieStore(); for (@SuppressWarnings("rawtypes") I... 阅读全文
posted @ 2016-08-31 15:58 陈泽泽 阅读(10019) 评论(0) 推荐(0) 编辑
摘要:单选框、复选框、文本框和密码框的元素标签都是input,此时单靠tagName无法准确地得到我们想要的元素,需要结合type属性才能过滤出我们要的元素。示例代码如下: 如果此时我们要通过className属性来查找该button并操作它的话,就可以使用className属性了 参考:http://w 阅读全文
posted @ 2016-08-31 09:31 陈泽泽 阅读(143) 评论(0) 推荐(0) 编辑
摘要:/** * @Title: webclientTest.java * @Package webclient * @Description: TODO(用一句话描述该文件做什么) * @author A18ccms A18ccms_gmail_com * @date 2016年8月30日 下午3:52:41 * @version V1.0 */ package web... 阅读全文
posted @ 2016-08-30 16:08 陈泽泽 阅读(324) 评论(0) 推荐(0) 编辑
摘要:对于类似以下简单的验证码的识别方案: 1、 2 3 4、 1、建库:切割验证码为单个字符,人工标记,比如:A。 2、识别:给一个验证码:切割为单个字符,在库中查询识别。 后记:复杂验证码识别 对于复杂的验证码识别:目前的最简单的方案就是交给第三方人工打码平台:可以参考我做的EBay多线程打码兔验证码 阅读全文
posted @ 2016-08-29 09:33 陈泽泽 阅读(6816) 评论(0) 推荐(0) 编辑
摘要:HttpClient请求https的实例: 阅读全文
posted @ 2016-08-23 16:59 陈泽泽 阅读(1320) 评论(0) 推荐(0) 编辑
摘要:Step1:获取题目列表 http://api2.jiakaobaodian.com/api/open/exam/do-exam.htm?_r=1125856454782524308*&cityCode=350800&page=1&limit=25&course=kemu1&carType=car& 阅读全文
posted @ 2016-08-19 10:21 陈泽泽 阅读(1534) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2016-08-18 09:29 陈泽泽 阅读(8) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2016-08-12 15:17 陈泽泽 阅读(16) 评论(0) 推荐(0) 编辑
摘要:private static void func_httpGet(String url) { HttpClient httpClient = new HttpClient(); try { GetMethod getMethod = new GetMethod(url); getMethod.getParams().... 阅读全文
posted @ 2016-07-06 10:47 陈泽泽 阅读(272) 评论(0) 推荐(0) 编辑
摘要:1 package step3; 2 3 import java.io.BufferedReader; 4 import java.io.BufferedWriter; 5 import java.io.File; 6 import java.io.FileReader; 7 import java 阅读全文
posted @ 2016-06-30 22:29 陈泽泽 阅读(740) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2016-06-30 19:44 陈泽泽 阅读(201) 评论(0) 推荐(0) 编辑
摘要:微博模拟登录获取cookis,配置采集深度,采集一条微博转发关系页面,同时解析页面,生成一条微博的传播图,数据集可做微博影响力分析和传播分析 gitthub:https://github.com/czeze/WeiboCrwlZEZE 阅读全文
posted @ 2016-04-12 09:39 陈泽泽 阅读(742) 评论(0) 推荐(0) 编辑
摘要:模拟登录测试"; if(strpos($loop, "http://***/default.aspx?id=") !== false){//找到Location $id = trim(substr($loop, 46)); } if(strpos(... 阅读全文
posted @ 2015-12-26 23:24 陈泽泽 阅读(1372) 评论(0) 推荐(0) 编辑
摘要:搜索源码爬取代码自动登录在线提交判断AC 阅读全文
posted @ 2015-12-17 16:25 陈泽泽 阅读(257) 评论(0) 推荐(0) 编辑
摘要:方法一:$baiduUrl = "http://www.baidu.com/link";file_get_contents($baiduUrl);$responseInfo = $http_response_header;print_r($responseInfo);// 输出:Array([0] ... 阅读全文
posted @ 2015-12-17 12:10 陈泽泽 阅读(2211) 评论(0) 推荐(0) 编辑
摘要:package zeze;import java.io.IOException;import org.jsoup.Connection;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Ele... 阅读全文
posted @ 2015-12-14 17:57 陈泽泽 阅读(393) 评论(0) 推荐(0) 编辑
摘要:Jsoup.parse解析HTML字符串,如Jsoup.parse("Firstparse")Jsoup.connect解析url网站地址,如Jsoup.connect(http://www.baidu.com).get()可以用httpclient获取网页,再用Jsoup.parse解析页面Str... 阅读全文
posted @ 2015-11-10 16:56 陈泽泽 阅读(1279) 评论(0) 推荐(0) 编辑
摘要:package Step1;import org.apache.commons.httpclient.Cookie;import org.apache.commons.httpclient.HttpClient;import org.apache.commons.httpclient.NameVal... 阅读全文
posted @ 2015-11-10 16:20 陈泽泽 阅读(30134) 评论(1) 推荐(2) 编辑