Python安装OCR识别库tesserocr_pytesseract教程
Python安装OCR识别库tesserocr
1.tesserocr下载
https://digi.bib.uni-mannheim.de/tesseract/
尽量选不带dev的版本,dev是开发版本,不带dev的是稳定版
个人配置
tesseract-ocr-w64-setup-v5.0.0-alpha.20201127.exe
2.tesserocr安装
需要注意以下的点,其他情况下next即可
(1)安装选项
Additional language data语言包安装需要梯子,不然可能会有错误提示。没有梯子的话这两项不选,单独在github下载语言包,等安装完成以后在tesserocr的安装路径下的tessdata文件中添加即可。
Additional language data语言可以全选,如果只是中文识别也可以只选择和Chinese有关的项。
(2)安装目录
安装目录保存一下,后续要用,直接按照默认的路径安装即可
(3)环境变量配置
在此电脑的属性-高级系统设置-环境变量-系统变量中,选中Path变量进行编辑
在Path变量中添加一行-即之前tesserocr的安装路径
在系统变量中添加变量TESSDATA_PREFIX
路径设置为 tesserocr的安装路径\tessdata
(4)查询版本
cmd命令行中输入tesseract -v检测版本,如下图所示则安装无误
3.在python中配置pytesseract
(1)pytesseract库安装
在所需的环境中通过pip安装pytesseract,Anaconda安装比较方便,个人配置为pytesseract 0.2.5版本
命令调用
pip install pytesseract=0.2.5
(2)修改pytesseract.py中路径(仅以Anaconda环境为例)
情况一:没有创建虚拟环境
将tesserocr的安装目录下的tessdata文件夹整个直接复制到Anaconda安装目录下
然后Anaconda安装目录Lib中的site-packagesw文件夹中的pytesseract文件中的pytesseract.py文件中修改
将tesseract_cmd修改成 '自己的tesserocr安装路径/tesseract.exe' 即可,注意斜杠用/,不要用\
情况二:有自己的python虚拟环境
打开虚拟环境,应该是存在Anaconda安装目录下的envs文件中,此处我创建了tensorflow1.0的虚拟环境
在虚拟环境中,复制粘贴tesserocr的安装目录下的tessdata文件夹
后续修改pytesseract.py文件tesseract_cmd路径与之前类似
至此配置完成
4.OCR测试
测试效果
参考
OCR识别项目参考:https://www.bilibili.com/video/BV1vi4y1171z/?p=7&vd_source=8694b8a9b18b03b06f3b9c0775f15e43
测试代码:
from PIL import Image
import pytesseract
import cv2
import os#常用路径操作、进程管理、环境参数
image = cv2.imread('test_hanzi4.png')#测试图片
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
gray = cv2.threshold(gray, 0, 255,cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]#二值化操作
filename = "{}.png".format(os.getpid())
cv2.imwrite(filename, gray)#在当前文件中创建新文件,把gray数据写入filename路径中
text = pytesseract.image_to_string(Image.open(filename),lang='chi_sim')
#识别中文,不加lang='chi_sim'默认识别英文
#image_to_string将图像上的Tesseract OCR运行结果返回到字符
print(text)
os.remove(filename)#删除指定路径的文件
cv2.imshow("Image", image)
cv2.imshow("Output", gray)
cv2.waitKey(0)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」