python之图片识别文字

本人的tesseract本来是3.0.2的,可以正常识别英文,但是添加简体中文识别库以后,一运行就报错。

找了很多错误答案,正解就是这个了。

参考自本篇博客

果然是版本过低,没什么需要注意的。

只是设置环境变量:

TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

这个变量要设置到识别库的目录才行,好多博客都是设置到安装目录就完事儿了,那样也是跑不起来了。

代码:

#!/usr/bin/python
# -*- coding:utf-8 -*-

import pytesseract
from PIL import Image
# 读取图片
im = Image.open('2.png')
# 识别文字
string = pytesseract.image_to_string(im,lang='chi_sim')
print(string)
posted @ 2022-03-19 17:20  念秋  阅读(676)  评论(0编辑  收藏  举报