python tesseract-ocr 图文识别（windows基础环境搭建）

2020-02-29 15:44 清风软件测试开发阅读(8935) 评论(1) 收藏举报

python tesseract-ocr 图文识别

一，先进行Tesserocr安装下载

1，先点击进入下面的百度网盘
链接: https://pan.baidu.com/s/1G5vZO2B4Mxx5JaiQtfIqCw 提取码: mp1u
打开百度网盘之后知道下面这两个文件
tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
tesseract-ocr-w64-setup-v5.0.0.20190623.exe
如果上面百度网盘打不开，可以尝试打开下面的百度网盘：
链接：https://pan.baidu.com/s/1-a69qU0aFu8_IlYzy0QgMQ 提取码：yd7i
链接：https://pan.baidu.com/s/1Tt9vRsbk7uX9VVTGb36OiA 提取码：1yhh

2，待下载完毕之后运行tesseract-ocr-w64-setup-v5.0.0.20190623.exe文件，

我的是安装在F:\Tesseract-OCR，一直next下去。

需要选择的选项，看下图。其中语言要选择简体中文，安装时会下载语言包，可能等待一段时间。

安装完成之后的目录如下：

我的tesseract-ocr是安装在F:\Tesseract-OCR，

下面开始最重要的步骤：

将F:\Tesseract-OCR里面的 tessdata 整个文件夹一起复制到python安装目录下面

把上面网盘下载的另一个文件(tesserocr-2.4.0-cp37-cp37m-win_amd64.whl)也复制到python安装目录下面

3，开始创建tesseract-ocr环境变量

将“F:\Tesseract-OCR”添加到环境变量中。如图：

增加一个TESSDATA_PREFIX变量名，变量值还是我的安装路径F:\Tesseract-OCR\tessdata这是将语言字库文件夹添加到变量中。

打开命令终端，输入：tesseract -v，可以看到版本信息

用命令tesseract --list-langs来查看Tesseract-OCR支持语言。

二，用pip或者pycharm 安装 tesseract 和 pytesseract

1，用pip安装

其实只需安装tesseract，默认pytesseract会随着tesseract一起安装的
执行pip install tesseract
如果pytesseract没有自动安装的话，可以再次主动安装pytesseract

2，用pycharm安装

最后pytesseract，tesseract，tesserocr 都安装成功之之后，显示如下：

三，在网上下载中文识别库 chi_sim.traineddata

可以在官网下载https://github.com/tesseract-ocr/tessdata

如果官网下载很慢的话也可以在百度网盘下载 https://pan.baidu.com/s/1G5vZO2B4Mxx5JaiQtfIqCw 提取码: mp1u

四，测试一下识别效果：

用下面三张图片进行识别

代码如下：

import pytesseract
from PIL import Image
import tesserocr

im=Image.open('ying_shu.png')
print(pytesseract.image_to_string(im))
im1=Image.open('ying_jianti.png')
print(pytesseract.image_to_string(im1,lang='chi_sim'))
im2=Image.open('fanti.png')
print(pytesseract.image_to_string(im2,lang='chi_tra'))

识别结果如下：

可以看到识别结果存在一定的错误，这就是识别率的问题，后期再进行优化

刷新页面返回顶部

清风软件测试开发测试开发_性能测试_自动化测试_平台开发_AIOT___高并发性能调优