tesseract-ocr的安装及使用pycharm来运行

1、可以在:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下载一个exe文件,然后直接按照提示安装就行了,安装过程中,会让你安装额外的语言包,可根据选择下载。

 

 

2、安装后配置一下环境变量

 

 

点击新建,把这个目录,复制进去保存就行了

 

增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径E:\pycharm\tesseract\Tesseract-OCR\tessdata这是将语言字库文件夹添加到变量中;

 

 

 

 

 

3、检查

打开命令终端,输入:tesseract -v,可以看到版本信息

可以看到就说明可以了

 

4、使用pycharm来认图,代码

首先你要安装pytesseract,安装过pytesseract后PIL一般也就随之安装了(pycharm安装库很简单,不会可以百度一下^_^)

 

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'E:\pycharm\tesseract\Tesseract-OCR\tesseract.exe'
image = Image.open('b.png')
# text = pytesseract.image_to_string(image,lang='chi_sim') # 这样就能识别中文了
text = pytesseract.image_to_string(image) 
print(text)

 

 

 

 

 

 

b.png:

 

 

 

 

 

 

 

提示:

你如果是用截图工具截取了一个登录时候的认证图,可能会让tesseract识别不了,因为好像是分别率不够

可以百度搜索个图片用来试试

 

posted @ 2020-08-04 15:59  kongbursi  阅读(2144)  评论(0编辑  收藏  举报