python图片文字识别笔记

我的环境为python3

坑比较多,在此做记录,以备查阅

命令行安装:

pip install PIL 
pip install pytesseract

pip install Pillow

下载tesseract-ocr安装包和中文包

将tesseract.exe添加到环境变量PATH中D:\Program Files (x86)\Tesseract-OCR

将语言包文件目录加入到环境变量中D:\Program Files (x86)\Tesseract-OCR\tessdata

增加一个TESSDATA_PREFIX环境变量,并设置目录:D:\Program Files (x86)\Tesseract-OCR

修改C:\Python\Lib\site-packages\pytesseract\pytesseract.py文件

tesseract_cmd = 'D:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

测试程序如下:

from PIL import Image
import pytesseract

text=pytesseract.image_to_string(Image.open('C:/Python/456.jpg'),lang='chi_sim')
print(text)

  

 

posted on 2018-01-24 11:07  fancing  阅读(246)  评论(0编辑  收藏  举报