随笔分类 - 网络爬虫
摘要:解决SSH证书问题: webClient.getOptions().setUseInsecureSSL(true);//解决ssh证书访问https的问题
阅读全文
摘要:private WebClient getAWebClient() { WebClient webClient = new WebClient(BrowserVersion.FIREFOX_24); webClient.getOptions().setTimeout(20000); // webClient.getCookieManager().s...
阅读全文
摘要:Set allCookies = driver.manage().getCookies(); try { CookieStore cookiestore = new BasicCookieStore(); for (@SuppressWarnings("rawtypes") I...
阅读全文
摘要:单选框、复选框、文本框和密码框的元素标签都是input,此时单靠tagName无法准确地得到我们想要的元素,需要结合type属性才能过滤出我们要的元素。示例代码如下: 如果此时我们要通过className属性来查找该button并操作它的话,就可以使用className属性了 参考:http://w
阅读全文
摘要:/** * @Title: webclientTest.java * @Package webclient * @Description: TODO(用一句话描述该文件做什么) * @author A18ccms A18ccms_gmail_com * @date 2016年8月30日 下午3:52:41 * @version V1.0 */ package web...
阅读全文
摘要:对于类似以下简单的验证码的识别方案: 1、 2 3 4、 1、建库:切割验证码为单个字符,人工标记,比如:A。 2、识别:给一个验证码:切割为单个字符,在库中查询识别。 后记:复杂验证码识别 对于复杂的验证码识别:目前的最简单的方案就是交给第三方人工打码平台:可以参考我做的EBay多线程打码兔验证码
阅读全文
摘要:HttpClient请求https的实例:
阅读全文
摘要:Step1:获取题目列表 http://api2.jiakaobaodian.com/api/open/exam/do-exam.htm?_r=1125856454782524308*&cityCode=350800&page=1&limit=25&course=kemu1&carType=car&
阅读全文
摘要:private static void func_httpGet(String url) { HttpClient httpClient = new HttpClient(); try { GetMethod getMethod = new GetMethod(url); getMethod.getParams()....
阅读全文
摘要:1 package step3; 2 3 import java.io.BufferedReader; 4 import java.io.BufferedWriter; 5 import java.io.File; 6 import java.io.FileReader; 7 import java
阅读全文
摘要:微博模拟登录获取cookis,配置采集深度,采集一条微博转发关系页面,同时解析页面,生成一条微博的传播图,数据集可做微博影响力分析和传播分析 gitthub:https://github.com/czeze/WeiboCrwlZEZE
阅读全文
摘要:模拟登录测试"; if(strpos($loop, "http://***/default.aspx?id=") !== false){//找到Location $id = trim(substr($loop, 46)); } if(strpos(...
阅读全文
摘要:方法一:$baiduUrl = "http://www.baidu.com/link";file_get_contents($baiduUrl);$responseInfo = $http_response_header;print_r($responseInfo);// 输出:Array([0] ...
阅读全文
摘要:package zeze;import java.io.IOException;import org.jsoup.Connection;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Ele...
阅读全文
摘要:Jsoup.parse解析HTML字符串,如Jsoup.parse("Firstparse")Jsoup.connect解析url网站地址,如Jsoup.connect(http://www.baidu.com).get()可以用httpclient获取网页,再用Jsoup.parse解析页面Str...
阅读全文
摘要:package Step1;import org.apache.commons.httpclient.Cookie;import org.apache.commons.httpclient.HttpClient;import org.apache.commons.httpclient.NameVal...
阅读全文