用python识别图片

用python识别图片

先下载tesseract

网址:https://digi.bib.uni-mannheim.de/tesseract/

image-20220624233328140

里面有各种.exe下载文件,其中带dev的是开发版本,不带dev的是稳定版本,我们选一个稳定版本下载即可

下载好之后直接安装就可以

image-20220624233744675

这一步可以选择支持的语言包,后面一直next就可以

为了在python中可以使用tesseract功能,使用pip安装pytesseract,pillow,在cmd里打以下命令就可以,如果有错误可能是pip没更新到最新的版本

pip install --upgrade pip
pip install pytesseract
pip install pillow

然后配置tesseract的环境变量,在path的系统变量中新建一项

image-20220625094148868

image-20220625094223787

把Tesseract—OCR这个安装目录放在这个环境变量下

然后再新建一个系统变量,放的是tessdata的目录

image-20220625100522242

这样就配置好了

然后在命令行输入以下命令,查看是否配置成功

image-20220625094706214

出现版本信息就表明环境变量配置成功

然后就可以开始识别了

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'E:\Tesseract-OCR\tesseract.exe'#这个放上自己安装的exe的路径就可以
tessdata_dir_config = r'--tessdata-dir "E:\Tesseract-OCR\tessdata"'#这个也是自己安装的路径,这个tessdata也在那个安装目录下

image=Image.open(r"C:\Users\jkx\Desktop\misc2.png")
#图片路径
code = pytesseract.image_to_string(image, config=tessdata_dir_config)

print(code)

image-20220625100053439

前面的r的意思是让后面的路径识别为字符,防止出现把\当成转义符的问题

或者是在命令行输入以下命令

image-20220625095949963

识别成功后,它会自动生成misc2.txt的文件

中间的是图片的路径

image-20220625100111322

posted @ 2022-06-25 10:46  Jinx8823  阅读(747)  评论(0编辑  收藏  举报