Java爬虫 - 随笔分类 - QiaoZhi

Jsoup爬取带登录验证码的网站

摘要：今天学完爬虫之后想的爬一下我们学校的教务系统，可是发现登录的时候有验证码。因此研究了Jsoup爬取带验证码的网站: 大体的思路是:(需要注意的是__VIEWSTATE一直变化，所以我们每个页面都需要重新获取并带着爬取下一个页面) 1.先爬取网站的主页，由于我们学校的网站是ASP.net，所以需要爬到阅读全文

posted @ 2018-04-21 10:33 QiaoZhi 阅读(7590) 评论(2) 推荐(2) 编辑

一个爬取https和http通用的工具类(JDK自带的URL的用法)

摘要：今天在java爬取天猫的时候因为ssl报错，所以从网上找了一个可以爬取https和http通用的工具类。但是有的时候此工具类爬到的数据不全，此处不得不说python爬虫很厉害。阅读全文

posted @ 2018-04-19 23:50 QiaoZhi 阅读(1202) 评论(0) 推荐(1) 编辑

爬取网站图片保存到本地

摘要：有时候我们需要在爬虫的时候将网站的图片保存到本地，这就需要我们先获取到图片的url，然后利用url再去下载图片到本地。下面介绍两种简单的方法: 1.利用java自带的URLConnection 此方法我还没有找到可以携带cookie或者其他信息去下载图片的方法。补充:org.apache.com 阅读全文

posted @ 2018-04-19 23:47 QiaoZhi 阅读(1642) 评论(0) 推荐(0) 编辑

htmlunit爬虫工具使用--模拟浏览器发送请求，获取JS动态生成的页面内容

摘要：Htmlunit是一款模拟浏览抓取页面内容的java框架，具有js解析引擎(rhino)，可以解析页面的js脚本，得到完整的页面内容，特殊适合于这种非完整页面的站点抓取。下载地址: https://sourceforge.net/projects/htmlunit/files/htmlunit/ 阅读全文

posted @ 2018-04-19 11:49 QiaoZhi 阅读(5807) 评论(0) 推荐(1) 编辑

利用Jsoup模拟跳过登录爬虫获取数据

摘要：今天在学习爬虫的时候想着学习一下利用jsoup模拟登录。下面分为有验证码和无验证码的情况进行讨论。无验证码的情况 1.我们正常利用网页进行登录，利用浏览器自带的开发者工具查看一些登录信息我们登录的时候需要携带自己的身份信息，也就是用户名和密码。也会携带一些浏览器的信息，所以我们可以通过Jsoup 阅读全文

posted @ 2018-04-18 22:57 QiaoZhi 阅读(11884) 评论(3) 推荐(1) 编辑

jsoup抓取网页报错UnsupportedMimeTypeException

摘要：今天在用Jsoup爬虫的时候两次遇到下面错误第一次: 代码: 解决办法: 第二次: 代码: 解决办法: 阅读全文

posted @ 2018-04-18 22:52 QiaoZhi 阅读(2476) 评论(1) 推荐(0) 编辑

Java爬虫(二)

摘要：上一篇简单的实现了获取url返回的内容，在这一篇就要第返回的内容进行提取，并将结果保存到html中。而且这个爬虫是基于python爬虫的java语言实现，其逻辑大致相同。一、需求: 抓取主页面：百度百科Python词条 https://baike.baidu.com/item/Python/4 阅读全文

posted @ 2018-04-18 22:02 QiaoZhi 阅读(679) 评论(0) 推荐(0) 编辑

Java简单爬虫(一)

摘要：简单的说，爬虫的意思就是根据url访问请求，然后对返回的数据进行提取，获取对自己有用的信息。然后我们可以将这些有用的信息保存到数据库或者保存到文件中。如果我们手工一个一个访问提取非常慢，所以我们需要编写程序去获取有用的信息，这也就是爬虫的作用。一、概念: 网络爬虫，也叫网络蜘蛛(Web Spide 阅读全文

posted @ 2018-04-18 21:40 QiaoZhi 阅读(1746) 评论(0) 推荐(0) 编辑

Qiao_Zhi

有远大抱负的人不可忽略眼前的工作!!!

随笔分类 - Java爬虫

公告