tesserocr:第三方模块tesserocr安装

一、介绍

tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一 层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之前,我们需要先安装tesseract。

二、相关链接

tesserocr GitHub

tesserocr PyPI

tesseract 下载地址

tesseract GitHub

tesseract 语言包

tesseract 文档

三、Windows下的安装

1.在 Windows 下,首先需要下载 tesseract,它为 tesserocr 提供了支持。

进入下载页面,可以看到有各种 .exe 文件的下载列表,这里可以选择下载版本 。

其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本,可以选择下载不带 dev 的版本, 我这里选择下载的是: tesseract-ocr-setup-4.00.00dev.exe。

2.下载完成后双击运行,安装程序。需要注意的是,需要句选 Additional language data(download)选项来安装 OCR 识别支持的语言包(选择需要的语言包即可),这样 OCR 便可以识别多国语言 。

3.给tesseract配置环境变量:

将tesseract安装路径添加到path环境变量中

将tesseract的语言包添加到环境变量中,在环境变量中新建一个系统变量,变量名称为TESSDATA_PREFIX,tessdata是放置语言包的文件夹,
一般在你安装tesseract的目录下,即tesseract的安装目录就是tessdata的父目录,把TESSDATA_PREFIX的值设置为tessdata的目录。

4.安装 tesserocr

pip install tesserocr

如果命令会出错,下载whl文件安装 下载地址

选择相应版本,打开Cmd,进入whl文件当前所在目录下,进行安装。

我的电脑为64位,Python版本为3.7.9,所以我下载了:tesserocr v2.4.0 - Python 3.7 - 64bit

5.复制Tesseract安装路径里的tessdata文件夹到Python所在的安装目录下

结束!

四、验证安装

准备一张验证码图片

1.用 tesseract 命令测试

tesseract cc.png result -l eng

2.利用 Python 代码测试

import tesserocr
from PIL import Image

image = Image.open("cc.png")
result = tesserocr.image_to_text(image)
print(result)

另外,还可以直接调用 tesserocr 模块的 file_to_text() 方法,可以达到同样的效果,但是直接调用file_to_text()方法,路径参数中不能出现中文字符。

import tesserocr

result = tesserocr.file_to_text("cc.png")
print(result)

如果以上测试都能输出成功,则证明 tesseract 和 tesserocr 都已经安装成功啦~

posted @ 2022-02-03 17:38  槑孒  阅读(504)  评论(1编辑  收藏  举报