python之图片识别文字
本人的tesseract本来是3.0.2的,可以正常识别英文,但是添加简体中文识别库以后,一运行就报错。
找了很多错误答案,正解就是这个了。
果然是版本过低,没什么需要注意的。
只是设置环境变量:
TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata
这个变量要设置到识别库的目录才行,好多博客都是设置到安装目录就完事儿了,那样也是跑不起来了。
代码:
#!/usr/bin/python
# -*- coding:utf-8 -*-
import pytesseract
from PIL import Image
# 读取图片
im = Image.open('2.png')
# 识别文字
string = pytesseract.image_to_string(im,lang='chi_sim')
print(string)