摘要: 第一节: HttpClient 连接超时及读取超时 HttpClient连接超时及读取超时 httpClient在执行具体http请求时候 有一个连接的时间和读取内容的时间; HttpClient连接时间 所谓连接的时候 是HttpClient发送请求的地方开始到连接上目标url主机地址的时间,理论 阅读全文
posted @ 2017-06-21 13:04 kika 阅读(4279) 评论(0) 推荐(0) 编辑
摘要: 第一节: HttpClient 抓取图片 这里pom.xml需要用到io输入输出: pom.xml 文件: 运行输出: ContentType:image/jpeg D盘下会有一个logo.jpg的图片 阅读全文
posted @ 2017-06-21 13:03 kika 阅读(618) 评论(0) 推荐(0) 编辑
摘要: 第一节: HttpClient 使用代理 IP 在爬取网页的时候,有的目标站点有反爬虫机制,对于频繁访问站点以及规则性访问站点的行为,会采集屏蔽IP措施。 这时候,代理IP就派上用场了。 关于代理IP的话 也分几种 透明代理、匿名代理、混淆代理、高匿代理 1、透明代理(Transparent Pro 阅读全文
posted @ 2017-06-21 13:03 kika 阅读(486) 评论(0) 推荐(0) 编辑
摘要: 第一节: 设置请求头消息 User-Agent 模拟浏览器 HttpClient设置请求头消息User-Agent模拟浏览器 比如我们请求 www.tuicool.com 用前面的代码: 返回内容: 网页内容:<!DOCTYPE html><html> <head> <meta http-equiv 阅读全文
posted @ 2017-06-21 13:02 kika 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 第一节: HttpClient 简介 HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。 官方站点:http://hc.apache.org/ 最 阅读全文
posted @ 2017-06-21 13:01 kika 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 第一节: htmlunit 爬取百度云资源 阅读全文
posted @ 2017-06-21 09:35 kika 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 第一节: htmlunit 模拟浏览器请求 第二节: htmlunit 获取指定元素 第三节: htmlunit 使用代理 IP 第四节: htmlunit 取消 css,javascript 支持 第五节: htmlunit 模拟按钮点击 阅读全文
posted @ 2017-06-21 09:34 kika 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 第一节: HtmlUnit 简介 htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器,运行速度迅速。是junit的扩展之一 采用的是Rhinojs引擎。模拟j 阅读全文
posted @ 2017-06-21 09:33 kika 阅读(225) 评论(0) 推荐(0) 编辑