2018 年 4月 19 日随笔档案 - QiaoZhi

2018年4月19日

摘要：今天在java爬取天猫的时候因为ssl报错，所以从网上找了一个可以爬取https和http通用的工具类。但是有的时候此工具类爬到的数据不全，此处不得不说python爬虫很厉害。阅读全文

posted @ 2018-04-19 23:50 QiaoZhi 阅读(1197) 评论(0) 推荐(1) 编辑

摘要：有时候我们需要在爬虫的时候将网站的图片保存到本地，这就需要我们先获取到图片的url，然后利用url再去下载图片到本地。下面介绍两种简单的方法: 1.利用java自带的URLConnection 此方法我还没有找到可以携带cookie或者其他信息去下载图片的方法。补充:org.apache.com 阅读全文

posted @ 2018-04-19 23:47 QiaoZhi 阅读(1637) 评论(0) 推荐(0) 编辑

java在CMD窗口执行程序的时候输入密码(隐藏一些敏感信息)

摘要：有时候我们需要从CMD窗口执行一些命令，有时候会输入一些敏感的信息，比如密码之类的东西，所以我们可以从控制台读取但是不希望别人看见我们的密码: 结果: 阅读全文

posted @ 2018-04-19 23:28 QiaoZhi 阅读(983) 评论(0) 推荐(0) 编辑

htmlunit爬虫工具使用--模拟浏览器发送请求，获取JS动态生成的页面内容

摘要： Htmlunit是一款模拟浏览抓取页面内容的java框架，具有js解析引擎(rhino)，可以解析页面的js脚本，得到完整的页面内容，特殊适合于这种非完整页面的站点抓取。下载地址: https://sourceforge.net/projects/htmlunit/files/htmlunit/ 阅读全文

posted @ 2018-04-19 11:49 QiaoZhi 阅读(5778) 评论(0) 推荐(1) 编辑

Qiao_Zhi

有远大抱负的人不可忽略眼前的工作!!!

公告