摘要: 一 . 学习基础知识 例如 常用 http请求头的含义 二. 学习java 抓取网页的 几种主流方式。 (1) httpurlConnection 抓取网页 get 请求网页 。 post 带参数 请求网页 . (2) Jsoup抓取网页 get 请求网页 。 post 带参数 请求网页 . (3) 阅读全文
posted @ 2018-03-14 20:40 情不知所起一往而深 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 上一篇文章介绍了 Jsoup设置请求头, 抓取网页的java 代码 这一篇文章介绍 httpClient 设置请求头 抓取网页的 java 代码实现 首先 到官网 上 下载 httpClient 这里下载的 是 4.5.5版本的 http://mirror.bit.edu.cn/apache//ht 阅读全文
posted @ 2018-03-14 20:34 情不知所起一往而深 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 上一篇文章介绍了httpUrlConnection 访问网页 的java 代码 本篇文章介绍Jsoup 访问网页 首先 到官网上 https://jsoup.org/download 下载 Jsoup-1.11.2.jar 导入到项目中 新建一个类 jsoupCrawler 编写如下代码 运行后的结 阅读全文
posted @ 2018-03-14 12:02 情不知所起一往而深 阅读(195) 评论(0) 推荐(0) 编辑
摘要: java中 抓取网页一共有5种方式 通过jdk自带的方法 有两种方式可以抓取网页, 他们分别是。 httpurlConnection 抓取网页, nio发送http请求 抓取网页 , 由于封装的不够好,抓取网页时代码较复杂,所以不常用 Jsoup, httpClient, htmlunit 是目前较 阅读全文
posted @ 2018-03-14 11:44 情不知所起一往而深 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫入门系列(一) 1.什么是网络爬虫 百度百科的说法是 是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 通俗的说法是 :将网络中的信息下载下来,然后进行一定的处理以得到你想要的信息。 2.网络爬虫的爬行策略 1) 深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链 阅读全文
posted @ 2018-03-14 10:49 情不知所起一往而深 阅读(185) 评论(0) 推荐(0) 编辑