tesseract-ocr的安装及使用pycharm来运行
1、可以在:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下载一个exe文件,然后直接按照提示安装就行了,安装过程中,会让你安装额外的语言包,可根据选择下载。
2、安装后配置一下环境变量
点击新建,把这个目录,复制进去保存就行了
增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径E:\pycharm\tesseract\Tesseract-OCR\tessdata这是将语言字库文件夹添加到变量中;
3、检查
打开命令终端,输入:tesseract -v,可以看到版本信息
可以看到就说明可以了
4、使用pycharm来认图,代码
首先你要安装pytesseract,安装过pytesseract后PIL一般也就随之安装了(pycharm安装库很简单,不会可以百度一下^_^)
import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = r'E:\pycharm\tesseract\Tesseract-OCR\tesseract.exe' image = Image.open('b.png')
# text = pytesseract.image_to_string(image,lang='chi_sim') # 这样就能识别中文了
text = pytesseract.image_to_string(image)
print(text)
b.png:
提示:
你如果是用截图工具截取了一个登录时候的认证图,可能会让tesseract识别不了,因为好像是分别率不够
可以百度搜索个图片用来试试