tesseract识别图片文字

OCR识别图片文字

pytesseract免费开源项目完成识别

pip install pytesseract 安装扩展包，只安装这个没有用
tesseract-ocr.exe 完成识别工作，下载并安装(过程中，需要点击选择中文包），记录其所在路径(应该与以下示例中近似)
1. 下载tesseract-ocr，链接：https://pan.baidu.com/s/1IBLgMicVK3Dk8VUO44sB3g 提取码：ghnb

示例代码：

from PIL import Image
import pytesseract

# 配置tesseract.exe路径，否则会报错
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

img = Image.open(r'03.jpg')
ret = pytesseract.image_to_string(img, lang='chi_sim')  # lang='chi_sim' 对识别中文起作用
print(ret)

报错示例：

1. pytesseract.pytesseract.TesseractError: (1, 'Error opening data file C:\\Program Files\\Tesseract-OCR\\/tessdata/chi_sim
	修正方法：根据报错提示，缺少中文数据包。将中文数据包chi_sim.traineddata（百度云中已有），添加进C:\Program Files\Tesseract-OCR\tessdata中即可。

posted @ 2021-01-02 23:10 疯狂列表推导式阅读(163) 评论(0) 收藏举报

刷新页面返回顶部