Python安装OCR识别库tesserocr_pytesseract教程

Python安装OCR识别库tesserocr

1.tesserocr下载

https://digi.bib.uni-mannheim.de/tesseract/

尽量选不带dev的版本,dev是开发版本,不带dev的是稳定版

个人配置

tesseract-ocr-w64-setup-v5.0.0-alpha.20201127.exe

2.tesserocr安装

需要注意以下的点,其他情况下next即可

(1)安装选项

Additional language data语言包安装需要梯子,不然可能会有错误提示。没有梯子的话这两项不选,单独在github下载语言包,等安装完成以后在tesserocr的安装路径下的tessdata文件中添加即可。

Additional language data语言可以全选,如果只是中文识别也可以只选择和Chinese有关的项。

(2)安装目录

安装目录保存一下,后续要用,直接按照默认的路径安装即可

(3)环境变量配置

在此电脑的属性-高级系统设置-环境变量-系统变量中,选中Path变量进行编辑

在Path变量中添加一行-即之前tesserocr的安装路径

在系统变量中添加变量TESSDATA_PREFIX

路径设置为 tesserocr的安装路径\tessdata

(4)查询版本

cmd命令行中输入tesseract -v检测版本,如下图所示则安装无误

3.在python中配置pytesseract

(1)pytesseract库安装

在所需的环境中通过pip安装pytesseract,Anaconda安装比较方便,个人配置为pytesseract 0.2.5版本

命令调用

pip install pytesseract=0.2.5

(2)修改pytesseract.py中路径(仅以Anaconda环境为例)

情况一:没有创建虚拟环境

将tesserocr的安装目录下的tessdata文件夹整个直接复制到Anaconda安装目录下

然后Anaconda安装目录Lib中的site-packagesw文件夹中的pytesseract文件中的pytesseract.py文件中修改

将tesseract_cmd修改成 '自己的tesserocr安装路径/tesseract.exe' 即可,注意斜杠用/,不要用\

情况二:有自己的python虚拟环境

打开虚拟环境,应该是存在Anaconda安装目录下的envs文件中,此处我创建了tensorflow1.0的虚拟环境

在虚拟环境中,复制粘贴tesserocr的安装目录下的tessdata文件夹

后续修改pytesseract.py文件tesseract_cmd路径与之前类似

至此配置完成

4.OCR测试

测试效果

参考

OCR识别项目参考:https://www.bilibili.com/video/BV1vi4y1171z/?p=7&vd_source=8694b8a9b18b03b06f3b9c0775f15e43

测试代码:

from PIL import Image
import pytesseract
import cv2
import os#常用路径操作、进程管理、环境参数

image = cv2.imread('test_hanzi4.png')#测试图片
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
gray = cv2.threshold(gray, 0, 255,cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]#二值化操作
  
filename = "{}.png".format(os.getpid())
cv2.imwrite(filename, gray)#在当前文件中创建新文件,把gray数据写入filename路径中
    
text = pytesseract.image_to_string(Image.open(filename),lang='chi_sim')
#识别中文,不加lang='chi_sim'默认识别英文
#image_to_string将图像上的Tesseract OCR运行结果返回到字符

print(text)
os.remove(filename)#删除指定路径的文件

cv2.imshow("Image", image)
cv2.imshow("Output", gray)
cv2.waitKey(0)         
posted @   ckr打怪  阅读(3937)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
点击右上角即可分享
微信分享提示