摘要: 【前言】在写爬虫时,正则表达式有时候比较难写,一个是自己不熟练,二者数据分析提取数据千奇百怪。 一、好在python有个re模块,提供了很多更加简便的方法;可参考此文档:https://www.cnblogs.com/tina-python/p/5508402.html 二、但有时候,不能实现过滤抽 阅读全文
posted @ 2018-07-16 17:30 秋雨声 阅读(5933) 评论(0) 推荐(0) 编辑
摘要: 【前言】几天研究验证码解决方案有三种吧。第一、手工输入,即保存图片后然后我们手工输入;第二、使用cookie,必须输入密码一次,获取cookie;第三、图像处理+深度学习方案,研究生也做相关课题,就用了这种。 一、处理思路 1、图像处理,针对我要识别的期货中心的验证码,有我针对性的处理。目标是得到去 阅读全文
posted @ 2018-07-16 14:59 秋雨声 阅读(2916) 评论(0) 推荐(0) 编辑
摘要: 一、解决方案: 1、http://www.ddooo.com/softdown/94968.htm 打开下载的压缩包,找到“tesseract-ocr-setup-3.02.02.exe”,双击运行; 2、python报错的地方,有pytesseract.py的连接,点开,修改pytesseract 阅读全文
posted @ 2018-07-16 10:42 秋雨声 阅读(3358) 评论(0) 推荐(0) 编辑