报错pytesseract.pytesseract.TesseractNotFoundError
在执行时报了如下错误:
pytesseract.pytesseract.TesseractNotFoundError: C:\Program Files (x86)\Tesseract-OCR\tesseract.exe is not installed or it’s not in your PATH.
这种错误发生有三种情况:
- Tesseract-OCR没有安装
- Tesseract-OCR安装了,没有设置系统环境变量
- Tesseract-OCR放置的路径不在对应目录下,需要程序里指定明确路径
针对情况 1 解决方案:
安装路径:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-5.3.3.20231005.exe
配置系统环境变量:
将安装路径添加进去,比如我安装的路径为C:\Program Files\Tesseract-OCR
cmd窗口验证是否添加成功,若出现版本号则设置成功:tesseract -v
针对情况 2 解决方案:
按情况1添加系统环境变量
针对情况 3 解决方案:
pytesseract自定义tesseract目录和tessdata目录
我这里写的是相对路径,换成自己的路径即可
import pytesseract
from PIL import Image
# 自定义tesseract目录
pytesseract.pytesseract.tesseract_cmd = '.\\Tesseract-OCR\\tesseract.exe'
# 自定义tessdata目录
tessdata_dir_config = '--tessdata-dir "./Tesseract-OCR/tessdata"'
print(pytesseract.image_to_string(Image.open('./image.jpg'), config=tessdata_dir_config, lang='fra'))