2017 年 11月 12 日随笔档案 - Michael2397

爬取动态网页：Selenium

摘要：参考：http://blog.csdn.net/wgyscsf/article/details/53454910 概述在爬虫过程中，一般情况下都是直接解析html源码进行分析解析即可。但是，有一种情况是比较特殊的：网页的数据采用异步加载的，比如ajax加载的数据，在我们“查看网页源代码”是查看不到阅读全文

posted @ 2017-11-12 22:42 Michael2397 阅读(293) 评论(0) 推荐(0) 编辑

Tesseract的使用

摘要：参考：http://blog.csdn.net/qy20115549/article/details/78106569 下载tess4j的安装包。首先，在该网站中下载tess4j的安装包。 https://sourceforge.net/projects/tesseract-ocr-alt/fil 阅读全文

posted @ 2017-11-12 18:18 Michael2397 阅读(369) 评论(0) 推荐(0) 编辑

httpclient:Ip 代理

摘要：参考：http://blog.csdn.net/sdfiiiiii/article/details/70432060 http://blog.csdn.net/qy20115549/article/details/54945974 第一篇博客可以获取http://www.xicidaili.com/ 阅读全文

posted @ 2017-11-12 16:23 Michael2397 阅读(536) 评论(0) 推荐(0) 编辑

Quartz实现定期运行程序(Java)

摘要：在线Cron 表达式生成器地址为：http://www.pdtools.net/tools/becron.jsp 阅读全文

posted @ 2017-11-12 11:47 Michael2397 阅读(204) 评论(0) 推荐(0) 编辑

摘要： package util; import java.text.DateFormat; import java.text.DecimalFormat; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.Calendar; ... 阅读全文

posted @ 2017-11-12 11:25 Michael2397 阅读(187) 评论(0) 推荐(0) 编辑

jsoup解析xml某片段的问题

摘要：参考：问题分析原来在解析html片段时，Jsoup自动将其补全为html。由于上面的形式是表格里面的一部分内容，所有需要补全。但Jsoup只会添加信息，而且有可能会把一些信息删除。如下，为上面html片段，补充的后果。这对解析没有什么帮助。解决办法将表格对应的标签补齐。阅读全文

posted @ 2017-11-12 11:01 Michael2397 阅读(290) 评论(0) 推荐(0) 编辑

httpclient:实现有验证码的模拟登陆

摘要： //1、这种方式是先把验证码的图片下载到本地、并且根据网页解析获得token值//2、手动在控制台输入验证码//3、因为验证码图片已经下载下来，后面就可以使用图像文字识别package DoubanSimulate; import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; impo... 阅读全文

posted @ 2017-11-12 10:42 Michael2397 阅读(1222) 评论(0) 推荐(0) 编辑

Michael2397