tesseract识别图片文字
OCR识别图片文字
pytesseract免费开源项目完成识别
-
pip install pytesseract 安装扩展包,只安装这个没有用
-
tesseract-ocr.exe 完成识别工作,下载并安装(过程中,需要点击选择中文包),记录其所在路径(应该与以下示例中近似)
- 下载tesseract-ocr, 链接:https://pan.baidu.com/s/1IBLgMicVK3Dk8VUO44sB3g 提取码:ghnb
-
示例代码:
from PIL import Image import pytesseract # 配置tesseract.exe路径,否则会报错 pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe" img = Image.open(r'03.jpg') ret = pytesseract.image_to_string(img, lang='chi_sim') # lang='chi_sim' 对识别中文起作用 print(ret)
-
报错示例:
1. pytesseract.pytesseract.TesseractError: (1, 'Error opening data file C:\\Program Files\\Tesseract-OCR\\/tessdata/chi_sim 修正方法:根据报错提示,缺少中文数据包。将中文数据包chi_sim.traineddata(百度云中已有),添加进C:\Program Files\Tesseract-OCR\tessdata中即可。