mac 安装tesseract、pytesseract以及简单使用
一.tesseract-OCR的介绍
1.tesseract-OCR是一个开源的OCR引擎,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。
2.用tesseract可以识别的图片中字体,主要有以下一些特点:
- 使用一个标准字体
- 可以使用复印或者拍照,但是必须字体要清晰,没有痕迹
- 图片里没有歪歪斜斜的字体
- 另外没有超出图片中的字体,也没有残缺的字体
二. mac tesseract-OCR的安装
1.安装有四种方式:
- brew install --with-training-tools tesseract //安装tesseract, 同时安装训练工具
- brew install --all-languages tesseract //安装tesseract,同时它还会安装所有语言
- brew install --all-languages --with-training-tools tesseract //安装附加组件
- brew install tesseract //安装tesseract,但是不安装训练工具,我选择这种方式进行安装
2.安装完tesseract后,进行测试:
- tesseract -v
- tesseract的安装路径为:/usr/local/Cellar/tesseract/4.0.0/
3.tesseract命令基本用法
- tesseract 9.jpg result //result是输出文件
4.下载语言库这里可以根据自己的需求来下载所需要的语言库,例如chi_sim.traineddata为简体中文:
下载地址:https://github.com/tesseract-ocr/tessdata
将chi_sim.traineddata下载后,需要将它放在/usr/local/Cellar/tesseract/4.0.0/share/tessdata目录下。
三. mac pytesseract的安装
1.
python有着更加方便的方式调用tesseract,首先需要安装pytesseract模块
2. 下载的命令
- pip install pytesseract
- pytesseract安装路径:/usr/local/lib/python3.7/site-packages/pytesseract
3.pytesseract模块要与PIL一起使用
4.实例1:
from PIL import Image
import pytesseract
if __name__ == '__main__':
text = pytesseract.image_to_string(Image.open('9.jpg'), lang='chi_sim')
print(text)
运行结果:
原文:https://blog.csdn.net/wodedipang_/article/details/84585914