2017年11月12日

爬取动态网页:Selenium

摘要: 参考:http://blog.csdn.net/wgyscsf/article/details/53454910 概述 在爬虫过程中,一般情况下都是直接解析html源码进行分析解析即可。但是,有一种情况是比较特殊的:网页的数据采用异步加载的,比如ajax加载的数据,在我们“查看网页源代码”是查看不到 阅读全文

posted @ 2017-11-12 22:42 Michael2397 阅读(293) 评论(0) 推荐(0) 编辑

Tesseract的使用

摘要: 参考:http://blog.csdn.net/qy20115549/article/details/78106569 下载tess4j的安装包。 首先,在该网站中下载tess4j的安装包。 https://sourceforge.net/projects/tesseract-ocr-alt/fil 阅读全文

posted @ 2017-11-12 18:18 Michael2397 阅读(369) 评论(0) 推荐(0) 编辑

httpclient:Ip 代理

摘要: 参考:http://blog.csdn.net/sdfiiiiii/article/details/70432060 http://blog.csdn.net/qy20115549/article/details/54945974 第一篇博客可以获取http://www.xicidaili.com/ 阅读全文

posted @ 2017-11-12 16:23 Michael2397 阅读(536) 评论(0) 推荐(0) 编辑

Quartz实现定期运行程序(Java)

摘要: 在线Cron 表达式生成器地址为:http://www.pdtools.net/tools/becron.jsp 阅读全文

posted @ 2017-11-12 11:47 Michael2397 阅读(204) 评论(0) 推荐(0) 编辑

TimeUtils(没试过)

摘要: package util; import java.text.DateFormat; import java.text.DecimalFormat; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.Calendar; ... 阅读全文

posted @ 2017-11-12 11:25 Michael2397 阅读(187) 评论(0) 推荐(0) 编辑

jsoup解析xml某片段的问题

摘要: 参考: 问题分析 原来在解析html片段时,Jsoup自动将其补全为html。由于上面的形式是表格里面的一部分内容,所有需要补全。但Jsoup只会添加 信息,而且有可能会把一些信息删除。 如下,为上面html片段,补充的后果。这对解析没有什么帮助。 解决办法 将表格对应的标签补齐。 阅读全文

posted @ 2017-11-12 11:01 Michael2397 阅读(290) 评论(0) 推荐(0) 编辑

httpclient:实现有验证码的模拟登陆

摘要: //1、这种方式是先把验证码的图片下载到本地、并且根据网页解析获得token值//2、手动在控制台输入验证码//3、因为验证码图片已经下载下来,后面就可以使用图像文字识别package DoubanSimulate; import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; impo... 阅读全文

posted @ 2017-11-12 10:42 Michael2397 阅读(1222) 评论(0) 推荐(0) 编辑

导航