python Tesseract 图片识别文字
1、介绍
tesseract模块,是python的第三方模块,可以用于图片的文字识别。
tesseract是谷歌的一个对图片进行识别的开源框架,免费使用
2、windows安装
(1)访问github,下载
Home · UB-Mannheim/tesseract Wiki · GitHub
(2)安装
默认安装目录C:\Program Files\Tesseract-OCR
(3)配置环境变量
(4)检查安装是否成功
tesseract -v
- 我这里测试失败,但是并不影响后续的操作和使用
(5)pycharm
import pytesseract
from PIL import Image
# 读取图片
im = Image.open('img.png')
# 识别文字
string = pytesseract.image_to_string(im)
print(string)
- 安装对应模块
- 准备好对应的图片文件
- venv/Lib/pytesseract目录下,编辑pytesseract.py文件中的tesseract_cmd变量
执行成功
(6)中文
默认支持的是english,对于其它语言并不进行解析,相当于一般像素。
也可以支持中文,但需要另外下载语言库。官方的,由于网络问题访问比较麻烦,暂时不处理。
http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=