上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页
摘要: 第一节: Jsoup 简介 Jsoup简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 我们在爬虫采集网页领域 主要作用是 用HttpClient获取到 阅读全文
posted @ 2017-06-22 16:47 kika 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 第一节: Jsoup 查找 DOM 元素 getElementById(String id) 根据 id 来查询 DOM getElementsByTag(String tagName) 根据 tag 名称来查询 DOM getElementsByClass(String className) 根据 阅读全文
posted @ 2017-06-22 16:47 kika 阅读(323) 评论(0) 推荐(0) 编辑
摘要: eclipse中Maven项目jar包下载下来了,不然我们import是时候根本导入不进来,网上的方法都试过了,Maven仓库也清空过后重新下载过了,都解决不了。 后来发现虽然jar包是下载下来了,可是下载的jar是bad singed(损坏的),因此我们根本就import不进来。 原因出在我们在外 阅读全文
posted @ 2017-06-22 15:25 kika 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 第一节: HttpClient 连接超时及读取超时 HttpClient连接超时及读取超时 httpClient在执行具体http请求时候 有一个连接的时间和读取内容的时间; HttpClient连接时间 所谓连接的时候 是HttpClient发送请求的地方开始到连接上目标url主机地址的时间,理论 阅读全文
posted @ 2017-06-21 13:04 kika 阅读(4247) 评论(0) 推荐(0) 编辑
摘要: 第一节: HttpClient 抓取图片 这里pom.xml需要用到io输入输出: pom.xml 文件: 运行输出: ContentType:image/jpeg D盘下会有一个logo.jpg的图片 阅读全文
posted @ 2017-06-21 13:03 kika 阅读(618) 评论(0) 推荐(0) 编辑
摘要: 第一节: HttpClient 使用代理 IP 在爬取网页的时候,有的目标站点有反爬虫机制,对于频繁访问站点以及规则性访问站点的行为,会采集屏蔽IP措施。 这时候,代理IP就派上用场了。 关于代理IP的话 也分几种 透明代理、匿名代理、混淆代理、高匿代理 1、透明代理(Transparent Pro 阅读全文
posted @ 2017-06-21 13:03 kika 阅读(485) 评论(0) 推荐(0) 编辑
摘要: 第一节: 设置请求头消息 User-Agent 模拟浏览器 HttpClient设置请求头消息User-Agent模拟浏览器 比如我们请求 www.tuicool.com 用前面的代码: 返回内容: 网页内容:<!DOCTYPE html><html> <head> <meta http-equiv 阅读全文
posted @ 2017-06-21 13:02 kika 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 第一节: HttpClient 简介 HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。 官方站点:http://hc.apache.org/ 最 阅读全文
posted @ 2017-06-21 13:01 kika 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 第一节: htmlunit 爬取百度云资源 阅读全文
posted @ 2017-06-21 09:35 kika 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 第一节: htmlunit 模拟浏览器请求 第二节: htmlunit 获取指定元素 第三节: htmlunit 使用代理 IP 第四节: htmlunit 取消 css,javascript 支持 第五节: htmlunit 模拟按钮点击 阅读全文
posted @ 2017-06-21 09:34 kika 阅读(257) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页