python 验证码识别初探
使用 pytesser 与 pytesseract 识别验证码
前置 :
首先需要安装 tesserract
是否要进行如下操作,我忘了,这段修改参考最下面的引用。 2,安装完成tesseract-ocr后,我们还需要做一下配置 在C:\Users\huxiu\AppData\Local\Programs\Python\Python35\Lib\site-packages\pytesseract找到pytesseract.py打开后做如下操作 # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY #tesseract_cmd = 'tesseract' tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
方式1 :
pytesseract 环境 anaconda 3.x IED : pycharm 5.0
pip install PIL
pip install pytesseract
python 代码:
# encoding : utf=8 from PIL import Image import pytesseract print(pytesseract.image_to_string(Image.open('04.jpeg')))
结果:
原图:
但是在识别.png图片是却有问题了 ...
比较尴尬.... 有可能是字体有缘故
方式2: pytesser 处理
这个对比较复杂 ..
1,从官网下载文件 https://code.google.com/archive/p/pytesser/downloads (pytesser_v0.0.1.zip)
2,解压重命名文件夹 pytesser 到 python 2.* 版本的 Lib\site-packages 下,我的是("C:\ProgramData\Anaconda3\envs\python 2.7\Lib\site-packages\pytesser") ,并将 “C:\ProgramData\Anaconda3\envs\python 2.7\Lib\site-packages” 手动加入到环境变量中。
“这里要注意,Anaconda3 默认的是 python 3.6 ,需要在 IDE pycharm 中,创建anacoda python 2.7 的环境”
创建完的虚拟环境,相关包需要重新安装,在下面搜索,不能用pip install ** 安装
上python代码:
# encoding : utf-8 from PIL import Image from pytesser import * image = Image.open("02.png") print image_to_string(image)
运行要用IDE 的 config来选择环境运行..
结果:
还是把 上面的那个 6886 识别成 了 5885
参考文档:https://blog.csdn.net/qiushi_1990/article/details/78041375