2018 年 3月 14 日随笔档案 - 情不知所起一往而深

2018年3月14日

摘要：一 . 学习基础知识例如常用 http请求头的含义二. 学习java 抓取网页的几种主流方式。 (1) httpurlConnection 抓取网页 get 请求网页。 post 带参数请求网页 . (2) Jsoup抓取网页 get 请求网页。 post 带参数请求网页 . (3) 阅读全文

posted @ 2018-03-14 20:40 情不知所起一往而深阅读(124) 评论(0) 推荐(0) 编辑

网络爬虫入门系列(3) httpClient

摘要：上一篇文章介绍了 Jsoup设置请求头，抓取网页的java 代码这一篇文章介绍 httpClient 设置请求头抓取网页的 java 代码实现首先到官网上下载 httpClient 这里下载的是 4.5.5版本的 http://mirror.bit.edu.cn/apache//ht 阅读全文

posted @ 2018-03-14 20:34 情不知所起一往而深阅读(171) 评论(0) 推荐(0) 编辑

网络爬虫入门系列（三） (Jsoup)

摘要：上一篇文章介绍了httpUrlConnection 访问网页的java 代码本篇文章介绍Jsoup 访问网页首先到官网上 https://jsoup.org/download 下载 Jsoup-1.11.2.jar 导入到项目中新建一个类 jsoupCrawler 编写如下代码运行后的结阅读全文

posted @ 2018-03-14 12:02 情不知所起一往而深阅读(195) 评论(0) 推荐(0) 编辑

网络爬虫入门系列（二）

摘要： java中抓取网页一共有5种方式通过jdk自带的方法有两种方式可以抓取网页，他们分别是。 httpurlConnection 抓取网页， nio发送http请求抓取网页，由于封装的不够好，抓取网页时代码较复杂，所以不常用 Jsoup, httpClient, htmlunit 是目前较阅读全文

posted @ 2018-03-14 11:44 情不知所起一往而深阅读(160) 评论(0) 推荐(0) 编辑

网络爬虫入门系列（一） (纯定义，可跳过不看)

摘要：网络爬虫入门系列(一) 1.什么是网络爬虫百度百科的说法是是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本通俗的说法是：将网络中的信息下载下来，然后进行一定的处理以得到你想要的信息。 2.网络爬虫的爬行策略 1) 深度优先策略：其基本方法是按照深度由低到高的顺序，依次访问下一级网页链阅读全文

posted @ 2018-03-14 10:49 情不知所起一往而深阅读(185) 评论(0) 推荐(0) 编辑

情不知所起,一往而深

公告