python Tesseract 图片识别文字

1、介绍

tesseract模块,是python的第三方模块,可以用于图片的文字识别。

tesseract是谷歌的一个对图片进行识别的开源框架,免费使用

2、windows安装

(1)访问github,下载

Home · UB-Mannheim/tesseract Wiki · GitHub

(2)安装

默认安装目录C:\Program Files\Tesseract-OCR

(3)配置环境变量

(4)检查安装是否成功

tesseract -v
  • 我这里测试失败,但是并不影响后续的操作和使用

(5)pycharm

import pytesseract
from PIL import Image
# 读取图片
im = Image.open('img.png')
# 识别文字
string = pytesseract.image_to_string(im)
print(string)
  • 安装对应模块
  • 准备好对应的图片文件
  • venv/Lib/pytesseract目录下,编辑pytesseract.py文件中的tesseract_cmd变量

执行成功

(6)中文

默认支持的是english,对于其它语言并不进行解析,相当于一般像素。

也可以支持中文,但需要另外下载语言库。官方的,由于网络问题访问比较麻烦,暂时不处理。

http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=

posted @ 2023-06-08 14:16  挖洞404  阅读(120)  评论(0编辑  收藏  举报