摘要: 今天在java爬取天猫的时候因为ssl报错,所以从网上找了一个可以爬取https和http通用的工具类。但是有的时候此工具类爬到的数据不全,此处不得不说python爬虫很厉害。 阅读全文
posted @ 2018-04-19 23:50 QiaoZhi 阅读(1197) 评论(0) 推荐(1) 编辑
摘要: 有时候我们需要在爬虫的时候将网站的图片保存到本地,这就需要我们先获取到图片的url,然后利用url再去下载图片到本地。 下面介绍两种简单的方法: 1.利用java自带的URLConnection 此方法我还没有找到可以携带cookie或者其他信息去下载图片的方法。 补充:org.apache.com 阅读全文
posted @ 2018-04-19 23:47 QiaoZhi 阅读(1637) 评论(0) 推荐(0) 编辑
摘要: 有时候我们需要从CMD窗口执行一些命令,有时候会输入一些敏感的信息,比如密码之类的东西,所以我们可以从控制台读取但是不希望别人看见我们的密码: 结果: 阅读全文
posted @ 2018-04-19 23:28 QiaoZhi 阅读(983) 评论(0) 推荐(0) 编辑
摘要: Htmlunit是一款模拟浏览抓取页面内容的java框架,具有js解析引擎(rhino),可以解析页面的js脚本,得到完整的页面内容,特殊适合于这种非完整页面的站点抓取。 下载地址: https://sourceforge.net/projects/htmlunit/files/htmlunit/ 阅读全文
posted @ 2018-04-19 11:49 QiaoZhi 阅读(5778) 评论(0) 推荐(1) 编辑